ชุมชน AI กำลังมีการอภิปรายอย่างเข้มข้นเกี่ยวกับอนาคตของ tokenization - กระบวนการที่แปลงข้อความให้เป็นตัวเลขที่โมเดลภาษาสามารถเข้าใจได้ บทความใหม่ระบุว่าเมื่อโมเดล AI มีความทรงพลังมากขึ้น เราอาจไม่จำเป็นต้องใช้ tokenization เลย
![]() |
---|
"อนาคตของการแบ่งโทเค็นใน AI เต็มไปด้วยการถกเถียง เหมือนกับตัวละครลึกลับในภาพนี้" |
ปัญหาหลักของ Tokenization ในปัจจุบัน
โมเดลภาษาในปัจจุบันไม่ได้ทำงานกับข้อความโดยตรง แต่ใช้ tokenization เพื่อแบ่งข้อความออกเป็นชิ้นเล็กๆ ที่เรียกว่า token แล้วแปลงเป็นตัวเลข ตัวอย่างเช่น คำว่า strawberry อาจถูกแบ่งเป็น token straw และ berry วิธีการนี้ได้ผลดี แต่ก็สร้างปัญหาที่ไม่คาดคิดบางอย่าง
ตัวอย่างที่มีชื่อเสียงที่สุดคือปัญหา strawberry - โมเดล AI หลายตัวมีปัญหาในการนับจำนวนตัวอักษร 'r' ในคำว่า strawberry เพราะมองเห็นเป็นสอง token แยกกันแทนที่จะเป็นตัวอักษรแต่ละตัว เมื่อโมเดลเห็น token สำหรับ straw มันไม่ได้รู้โดยอัตโนมัติว่า token นี้ประกอบด้วยตัวอักษร s-t-r-a-w
Token: ชิ้นเล็กของข้อความ (เช่น ส่วนของคำ) ที่ถูกแปลงเป็นตัวเลขเพื่อให้โมเดล AI ประมวลผล
ตัวอย่างการแบ่งโทเค็น:
- คำว่า " strawberry " → โทเค็น: " straw " + " berry "
- ตัวเลข " 1234567 " → โทเค็น: " 123 " + " 456 " + " 7 "
- การแบ่งโทเค็นตัวเลขที่ปรับปรุงแล้ว: " 1234567 " → " 1 " + " 234 " + " 567 " (การจัดกลุ่มจากขวาไปซ้าย)
คณิตศาสตร์และตรรกะได้รับผลกระทบมากที่สุด
ปัญหา tokenization จะเห็นได้ชัดเจนเป็นพิเศษกับคณิตศาสตร์ โมเดล AI ปัจจุบันมักมีปัญหากับการคำนวณเพราะตัวเลขถูกแบ่งออกในลักษณะที่แปลกประหลาด ตัวเลขเช่น 1234567 อาจกลายเป็น token 123, 456, และ 7 - ทำให้โมเดลทำคณิตศาสตร์ได้ยากขึ้นมาก
นักวิจัยบางคนได้พบวิธีแก้ปัญหาที่ชาญฉลาด เช่น การแบ่งตัวเลขจากขวาไปซ้ายเป็นกลุมละสามหลัก ดังนั้น 1234567 จึงกลายเป็น 1, 234, 567 วิธีการนี้ช่วยแก้ปัญหาคณิตศาสตร์ แต่ต้องการวิศวกรรมจากมนุษย์มากขึ้น - ซึ่งเป็นสิ่งที่ bitter lesson แนะนำว่าเราควรหลีกเลี่ยง
The Bitter Lesson: หลักการในการวิจัย AI ที่ระบุว่าวิธีการที่ใช้พลังคอมพิวเตอร์และข้อมูลจำนวนมากมักจะเอาชนะโซลูชันที่มนุษย์ออกแบบอย่างพิถีพิถัน
![]() |
---|
"ตัวชี้วัดประสิทธิภาพเปรียบเทียบเน้นย้ำถึงความท้าทายที่ AI เผชิญกับการแบ่งโทเค็นในงานทางคณิตศาสตร์" |
การผลักดันสู่ Raw Bytes
แทนที่จะใช้ token นักวิจัยบางคนต้องการป้อน raw bytes หรือตัวอักษรแต่ละตัวเข้าสู่โมเดล AI โดยตรง สิ่งนี้จะขจัดขั้นตอน tokenization ทั้งหมดและให้โมเดลเรียนรู้ที่จะเข้าใจข้อความอย่างธรรมชาติ ความท้าทายหลักคือโมเดลต้องมีขนาดใหญ่มากเพื่อจัดการกับวิธีการนี้อย่างมีประสิทธิภาพ
อย่างไรก็ตาม เมื่อพลังคอมพิวเตอร์เติบโตอย่างต่อเนื่องแบบเลขชี้กำลัง สิ่งนี้อาจเป็นไปได้ในทางปฏิบัติ โมเดลสามารถจดจำตัวอักษรที่เป็นไปได้ทั้งหมดและความสัมพันธ์ของพวกมันได้โดยไม่ต้องใช้ขั้นตอน tokenization ระหว่างกลาง
แนวทางทางเลือก:
- การประมวลผลระดับไบต์: ป้อนไบต์ UTF-8 ดิบโดยตรงเข้าสู่โมเดล (ค่าที่เป็นไปได้ 256 ค่า)
- ระดับตัวอักษร: ประมวลผลตัวอักษรแต่ละตัวแทนที่จะเป็นชิ้นส่วนคำ
- Byte-Latent Transformer (BLT): สถาปัตยกรรมใหม่ที่ทำงานกับไบต์ดิบในขณะที่ยังคงรักษาประสิทธิภาพ
ความสงสัยของชุมชนและข้อกังวลเชิงปฏิบัติ
ไม่ใช่ทุกคนเห็นด้วยว่าการทิ้ง tokenization เป็นการเคลื่อนไหวที่ถูกต้อง สมาชิกชุมชนหลายคนชี้ให้เห็นว่า tokenization ได้ผ่าน bitter lesson ของตัวเองมาแล้ว - การเปลี่ยนจากกฎที่สร้างด้วยมือไปสู่วิธีการทางสถิติที่เรียนรู้ พวกเขาโต้แย้งว่าการกำจัด tokenization ทั้งหมดอาจเป็นการไปไกลเกินไป
นอกจากนี้ยังมีข้อกังวลเชิงปฏิบัติเกี่ยวกับต้นทุนและประสิทธิภาพ การฝึกโมเดลให้ทำงานกับ raw bytes ต้องใช้พลังคอมพิวเตอร์มากกว่าอย่างมีนัยสำคัญ ซึ่งแปลเป็นต้นทุนที่สูงขึ้น การประมาณการบางอย่างแนะนำว่าโมเดล AI ชั้นนำมีค่าใช้จ่ายในการฝึกหลายสิบล้านดอลลาร์สหรัฐอเมริกาแล้ว และการกำจัด tokenization อาจทำให้แพงขึ้นมาก
ต้นทุนการฝึกโมเดล AI ในปัจจุบัน:
- OpenAI GPT-4 : ต้นทุนการประมวลผลประมาณ 78 ล้านดอลลาร์สหรัฐ
- Google Gemini Ultra : ต้นทุนการประมวลผลประมาณ 191 ล้านดอลลาร์สหรัฐ
- ต้นทุนเหล่านี้เป็นเพียงค่าใช้จ่ายด้านการประมวลผลเท่านั้น และไม่รวมค่าใช้จ่ายในการพัฒนาด้านอื่นๆ
![]() |
---|
"ความแตกต่างของประสิทธิภาพแสดงให้เห็นถึงความสงสัยของชุมชนเกี่ยวกับการยกเลิก tokenization เนื่องจากความกังวลในทางปฏิบัติ" |
ภาพรวมใหญ่
การถกเถียงนี้สะท้อนความตึงเครียดที่กว้างขึ้นในการวิจัย AI ระหว่างการออกแบบโซลูชันที่ชาญฉลาดและการใช้พลังคอมพิวเตอร์มากขึ้นกับปัญหา แม้ว่าวิธีการขยายทุกอย่างขึ้นจะได้ผลดีเมื่อเร็วๆ นี้ แต่ก็ไม่ชัดเจนว่าเป็นเส้นทางที่ดีที่สุดเสมอไป
การอภิปราย tokenization ยังเน้นให้เห็นว่าการพัฒนา AI มักเกี่ยวข้องกับการแลกเปลี่ยนที่ไม่คาดคิด สิ่งที่ดูเหมือนเป็นตัวเลือกทางเทคนิคง่ายๆ - วิธีการแปลงข้อความเป็นตัวเลข - สามารถมีผลกระทบสำคัญต่อความสามารถของโมเดลในการนับตัวอักษรหรือทำคณิตศาสตร์พื้นฐาน
เมื่อโมเดล AI ยังคงพัฒนาและต้นทุนคอมพิวเตอร์ลดลง เราน่าจะเห็นการทดลองมากขึ้นกับวิธีการที่แตกต่างกันในการประมวลผลข้อความ ว่า tokenization จะหายไปทั้งหมดหรือพัฒนาเป็นสิ่งใหม่ยังคงเป็นคำถามเปิดที่จะกำหนดอนาคตของ AI ภาษา