นักวิจัย AI ถกเถียงว่า Tokenization จะล้าสมัยหรือไม่เมื่อโมเดลมีขนาดใหญ่ขึ้น

ทีมชุมชน BigGo
นักวิจัย AI ถกเถียงว่า Tokenization จะล้าสมัยหรือไม่เมื่อโมเดลมีขนาดใหญ่ขึ้น

ชุมชน AI กำลังมีการอภิปรายอย่างเข้มข้นเกี่ยวกับอนาคตของ tokenization - กระบวนการที่แปลงข้อความให้เป็นตัวเลขที่โมเดลภาษาสามารถเข้าใจได้ บทความใหม่ระบุว่าเมื่อโมเดล AI มีความทรงพลังมากขึ้น เราอาจไม่จำเป็นต้องใช้ tokenization เลย

"อนาคตของการแบ่งโทเค็นใน AI เต็มไปด้วยการถกเถียง เหมือนกับตัวละครลึกลับในภาพนี้"
"อนาคตของการแบ่งโทเค็นใน AI เต็มไปด้วยการถกเถียง เหมือนกับตัวละครลึกลับในภาพนี้"

ปัญหาหลักของ Tokenization ในปัจจุบัน

โมเดลภาษาในปัจจุบันไม่ได้ทำงานกับข้อความโดยตรง แต่ใช้ tokenization เพื่อแบ่งข้อความออกเป็นชิ้นเล็กๆ ที่เรียกว่า token แล้วแปลงเป็นตัวเลข ตัวอย่างเช่น คำว่า strawberry อาจถูกแบ่งเป็น token straw และ berry วิธีการนี้ได้ผลดี แต่ก็สร้างปัญหาที่ไม่คาดคิดบางอย่าง

ตัวอย่างที่มีชื่อเสียงที่สุดคือปัญหา strawberry - โมเดล AI หลายตัวมีปัญหาในการนับจำนวนตัวอักษร 'r' ในคำว่า strawberry เพราะมองเห็นเป็นสอง token แยกกันแทนที่จะเป็นตัวอักษรแต่ละตัว เมื่อโมเดลเห็น token สำหรับ straw มันไม่ได้รู้โดยอัตโนมัติว่า token นี้ประกอบด้วยตัวอักษร s-t-r-a-w

Token: ชิ้นเล็กของข้อความ (เช่น ส่วนของคำ) ที่ถูกแปลงเป็นตัวเลขเพื่อให้โมเดล AI ประมวลผล

ตัวอย่างการแบ่งโทเค็น:

  • คำว่า " strawberry " → โทเค็น: " straw " + " berry "
  • ตัวเลข " 1234567 " → โทเค็น: " 123 " + " 456 " + " 7 "
  • การแบ่งโทเค็นตัวเลขที่ปรับปรุงแล้ว: " 1234567 " → " 1 " + " 234 " + " 567 " (การจัดกลุ่มจากขวาไปซ้าย)

คณิตศาสตร์และตรรกะได้รับผลกระทบมากที่สุด

ปัญหา tokenization จะเห็นได้ชัดเจนเป็นพิเศษกับคณิตศาสตร์ โมเดล AI ปัจจุบันมักมีปัญหากับการคำนวณเพราะตัวเลขถูกแบ่งออกในลักษณะที่แปลกประหลาด ตัวเลขเช่น 1234567 อาจกลายเป็น token 123, 456, และ 7 - ทำให้โมเดลทำคณิตศาสตร์ได้ยากขึ้นมาก

นักวิจัยบางคนได้พบวิธีแก้ปัญหาที่ชาญฉลาด เช่น การแบ่งตัวเลขจากขวาไปซ้ายเป็นกลุมละสามหลัก ดังนั้น 1234567 จึงกลายเป็น 1, 234, 567 วิธีการนี้ช่วยแก้ปัญหาคณิตศาสตร์ แต่ต้องการวิศวกรรมจากมนุษย์มากขึ้น - ซึ่งเป็นสิ่งที่ bitter lesson แนะนำว่าเราควรหลีกเลี่ยง

The Bitter Lesson: หลักการในการวิจัย AI ที่ระบุว่าวิธีการที่ใช้พลังคอมพิวเตอร์และข้อมูลจำนวนมากมักจะเอาชนะโซลูชันที่มนุษย์ออกแบบอย่างพิถีพิถัน

"ตัวชี้วัดประสิทธิภาพเปรียบเทียบเน้นย้ำถึงความท้าทายที่ AI เผชิญกับการแบ่งโทเค็นในงานทางคณิตศาสตร์"
"ตัวชี้วัดประสิทธิภาพเปรียบเทียบเน้นย้ำถึงความท้าทายที่ AI เผชิญกับการแบ่งโทเค็นในงานทางคณิตศาสตร์"

การผลักดันสู่ Raw Bytes

แทนที่จะใช้ token นักวิจัยบางคนต้องการป้อน raw bytes หรือตัวอักษรแต่ละตัวเข้าสู่โมเดล AI โดยตรง สิ่งนี้จะขจัดขั้นตอน tokenization ทั้งหมดและให้โมเดลเรียนรู้ที่จะเข้าใจข้อความอย่างธรรมชาติ ความท้าทายหลักคือโมเดลต้องมีขนาดใหญ่มากเพื่อจัดการกับวิธีการนี้อย่างมีประสิทธิภาพ

อย่างไรก็ตาม เมื่อพลังคอมพิวเตอร์เติบโตอย่างต่อเนื่องแบบเลขชี้กำลัง สิ่งนี้อาจเป็นไปได้ในทางปฏิบัติ โมเดลสามารถจดจำตัวอักษรที่เป็นไปได้ทั้งหมดและความสัมพันธ์ของพวกมันได้โดยไม่ต้องใช้ขั้นตอน tokenization ระหว่างกลาง

แนวทางทางเลือก:

  • การประมวลผลระดับไบต์: ป้อนไบต์ UTF-8 ดิบโดยตรงเข้าสู่โมเดล (ค่าที่เป็นไปได้ 256 ค่า)
  • ระดับตัวอักษร: ประมวลผลตัวอักษรแต่ละตัวแทนที่จะเป็นชิ้นส่วนคำ
  • Byte-Latent Transformer (BLT): สถาปัตยกรรมใหม่ที่ทำงานกับไบต์ดิบในขณะที่ยังคงรักษาประสิทธิภาพ

ความสงสัยของชุมชนและข้อกังวลเชิงปฏิบัติ

ไม่ใช่ทุกคนเห็นด้วยว่าการทิ้ง tokenization เป็นการเคลื่อนไหวที่ถูกต้อง สมาชิกชุมชนหลายคนชี้ให้เห็นว่า tokenization ได้ผ่าน bitter lesson ของตัวเองมาแล้ว - การเปลี่ยนจากกฎที่สร้างด้วยมือไปสู่วิธีการทางสถิติที่เรียนรู้ พวกเขาโต้แย้งว่าการกำจัด tokenization ทั้งหมดอาจเป็นการไปไกลเกินไป

นอกจากนี้ยังมีข้อกังวลเชิงปฏิบัติเกี่ยวกับต้นทุนและประสิทธิภาพ การฝึกโมเดลให้ทำงานกับ raw bytes ต้องใช้พลังคอมพิวเตอร์มากกว่าอย่างมีนัยสำคัญ ซึ่งแปลเป็นต้นทุนที่สูงขึ้น การประมาณการบางอย่างแนะนำว่าโมเดล AI ชั้นนำมีค่าใช้จ่ายในการฝึกหลายสิบล้านดอลลาร์สหรัฐอเมริกาแล้ว และการกำจัด tokenization อาจทำให้แพงขึ้นมาก

ต้นทุนการฝึกโมเดล AI ในปัจจุบัน:

  • OpenAI GPT-4 : ต้นทุนการประมวลผลประมาณ 78 ล้านดอลลาร์สหรัฐ
  • Google Gemini Ultra : ต้นทุนการประมวลผลประมาณ 191 ล้านดอลลาร์สหรัฐ
  • ต้นทุนเหล่านี้เป็นเพียงค่าใช้จ่ายด้านการประมวลผลเท่านั้น และไม่รวมค่าใช้จ่ายในการพัฒนาด้านอื่นๆ
"ความแตกต่างของประสิทธิภาพแสดงให้เห็นถึงความสงสัยของชุมชนเกี่ยวกับการยกเลิก tokenization เนื่องจากความกังวลในทางปฏิบัติ"
"ความแตกต่างของประสิทธิภาพแสดงให้เห็นถึงความสงสัยของชุมชนเกี่ยวกับการยกเลิก tokenization เนื่องจากความกังวลในทางปฏิบัติ"

ภาพรวมใหญ่

การถกเถียงนี้สะท้อนความตึงเครียดที่กว้างขึ้นในการวิจัย AI ระหว่างการออกแบบโซลูชันที่ชาญฉลาดและการใช้พลังคอมพิวเตอร์มากขึ้นกับปัญหา แม้ว่าวิธีการขยายทุกอย่างขึ้นจะได้ผลดีเมื่อเร็วๆ นี้ แต่ก็ไม่ชัดเจนว่าเป็นเส้นทางที่ดีที่สุดเสมอไป

การอภิปราย tokenization ยังเน้นให้เห็นว่าการพัฒนา AI มักเกี่ยวข้องกับการแลกเปลี่ยนที่ไม่คาดคิด สิ่งที่ดูเหมือนเป็นตัวเลือกทางเทคนิคง่ายๆ - วิธีการแปลงข้อความเป็นตัวเลข - สามารถมีผลกระทบสำคัญต่อความสามารถของโมเดลในการนับตัวอักษรหรือทำคณิตศาสตร์พื้นฐาน

เมื่อโมเดล AI ยังคงพัฒนาและต้นทุนคอมพิวเตอร์ลดลง เราน่าจะเห็นการทดลองมากขึ้นกับวิธีการที่แตกต่างกันในการประมวลผลข้อความ ว่า tokenization จะหายไปทั้งหมดหรือพัฒนาเป็นสิ่งใหม่ยังคงเป็นคำถามเปิดที่จะกำหนดอนาคตของ AI ภาษา

อ้างอิง: The Bitter Lesson is coming for Tokenization