บล็อกโพสต์ใหม่กำลังจุดประกายการถกเถียงในชุมชนเทคโนโลยีเกี่ยวกับความรู้ทางคณิตศาสตร์ที่จำเป็นจริง ๆ ในการเข้าใจ Large Language Models ผู้เขียนอ้างว่าคณิตศาสตร์พื้นฐานระดับมัธยมปลาย ได้แก่ เวกเตอร์ เมทริกซ์ และพีชคณิตเบื้องต้น ให้พื้นฐานที่เพียงพอในการเข้าใจวิธีการทำงานของระบบ AI เหล่านี้ภายใต้ฝาครอบ
โพสต์นี้มุ่งเน้นไปที่การ inference ของ LLM โดยเฉพาะ ซึ่งหมายถึงการใช้โมเดล AI ที่มีอยู่แล้วแทนที่จะเทรนโมเดลใหม่ตั้งแต่ต้น ความแตกต่างนี้มีความสำคัญเพราะการเทรนเกี่ยวข้องกับแนวคิดทางคณิตศาสตร์ที่ซับซ้อนกว่า แต่การเข้าใจว่าโมเดลที่ผ่านการเทรนแล้วประมวลผลข้อมูลอย่างไรกลับต้องใช้ทักษะทางคณิตศาสตร์พื้นฐานอย่างน่าประหลาด
องค์ประกอบทางคณิตศาสตร์หลัก
การอภิปรายมุ่งเน้นไปที่แนวคิดทางคณิตศาสตร์หลักสามประการที่เป็นกระดูกสันหลังของการดำเนินงาน LLM ประการแรก เวกเตอร์และปริภูมิหลายมิติช่วยแสดงความหมายในรูปแบบที่คอมพิวเตอร์สามารถประมวลผลได้ เมื่อ LLM ประมวลผลข้อความ มันจะแปลงคำเป็นเวกเตอร์ตัวเลขที่อยู่ในปริภูมิที่มีหลายพันมิติ ซึ่งมากกว่าที่มนุษย์สามารถจินตนาการได้ แต่ในแนวคิดแล้วคล้ายกับปริภูมิ 2 มิติและ 3 มิติที่สอนในโรงเรียน
ประการที่สอง การคูณเมทริกซ์ทำหน้าที่เป็นเครื่องมือหลักในการแปลงเวกเตอร์เหล่านี้ระหว่างปริภูมิการแสดงที่แตกต่างกัน แต่ละชั้นในโครงข่ายประสาทเทียมจะทำการคูณเมทริกซ์เพื่อฉายข้อมูลจากปริภูมิมิติหนึ่งไปยังอีกมิติหนึ่ง คล้ายกับวิธีที่กราฟิก 3 มิติถูกฉายลงบนหน้าจอ 2 มิติ
ประการที่สาม ฟังก์ชัน softmax แปลงผลลัพธ์ตัวเลขดิบเป็นการกระจายความน่าจะเป็น ช่วยให้โมเดลตัดสินใจว่าคำใดควรมาถัดไปในลำดับ การดำเนินการทางคณิตศาสตร์นี้นำคะแนนความน่าจะเป็นที่ยุ่งเหยิงมาแปลงเป็นความน่าจะเป็นที่ชัดเจนซึ่งรวมกันได้ 100%
หมายเหตุ: Softmax เป็นฟังก์ชันทางคณิตศาสตร์ที่แปลงเวกเตอร์ของตัวเลขเป็นการกระจายความน่าจะเป็นที่ค่าทั้งหมดอยู่ระหว่าง 0 และ 1 และรวมกันเท่ากับ 1
แนวคิดทางคณิตศาสตร์สำหรับความเข้าใจของ LLM
- เวกเตอร์: อาร์เรย์ของตัวเลขที่แสดงถึงระยะทางและทิศทางในพื้นที่ n มิติ
- การคูณเมทริกซ์: การฉายข้อมูลระหว่างพื้นที่มิติที่แตกต่างกัน
- ฟังก์ชัน Softmax: แปลงคะแนนความน่าจะเป็นให้เป็นการกระจายความน่าจะเป็น (ค่า 0-1, รวมกัน=1)
- เวกเตอร์ One-hot: เวกเตอร์ความน่าจะเป็นที่มีค่าหนึ่งเท่ากับ 1 และค่าอื่นๆ เท่ากับ 0
- การฝังตัว (Embeddings): พื้นที่มิติสูงที่แนวคิดที่คล้ายกันจะจัดกลุ่มเข้าด้วยกัน
ชุมชนต่อต้านการทำให้เรื่องซับซ้อนดูง่าย
อย่างไรก็ตาม ผู้ปฏิบัติงานที่มีประสบการณ์หลายคนกำลังต่อต้านมุมมองที่ทำให้ง่ายเกินไปนี้ ผู้วิจารณ์โต้แย้งว่าแม้การดำเนินการพื้นฐานจะเป็นการคูณเมทริกซ์ง่าย ๆ จริง แต่คำอธิบายนี้พลาดภาพใหญ่ของสิ่งที่ทำให้ LLM สมัยใหม่มีพลังมาก
คณิตศาสตร์ที่ใช้เข้าใจ LLMs กล่าวคือที่อธิบายด้วยความเข้มงวดทางคณิตศาสตร์ว่าทำไม LLMs ถึงทำงานได้ ยังไม่ได้รับการพัฒนาอย่างเต็มที่ นั่นคือสิ่งที่ LLM Explainability เป็น ความพยายามในการเข้าใจและชี้แจงกระบวนการตัดสินใจที่ซับซ้อนและเป็นกล่องดำ
ความขัดแย้งเกิดจากความไม่เห็นด้วยพื้นฐานเกี่ยวกับความหมายของการเข้าใจ บางคนโต้แย้งว่าการรู้การดำเนินการทางคณิตศาสตร์เหมือนกับการเข้าใจรถยนต์โดยศึกษาเคมีของน้ำมันเบนซิน ซึ่งถูกต้องในทางเทคนิคแต่ไม่มีประโยชน์ในทางปฏิบัติสำหรับคนส่วนใหญ่ที่แค่อยากรู้ว่ารถทำงานอย่างไร
ปัญหาของขนาด
ประเด็นหลักของความขัดแย้งคือการที่เน้นคณิตศาสตร์พื้นฐานอาจบดบังความซับซ้อนที่แท้จริงของ LLM สมัยใหม่ ในขณะที่โมเดลภาษาในยุคแรกอาจเป็นเพียงตัวทำนายคำทางสถิติง่าย ๆ ระบบในปัจจุบันอย่าง GPT-4 มีพารามิเตอร์มากกว่าหนึ่งล้านล้านตัวที่ทำงานร่วมกันในรูปแบบที่นักวิจัยยังไม่เข้าใจอย่างเต็มที่
โครงข่ายขนาดใหญ่เหล่านี้ดูเหมือนจะพัฒนาการแสดงภายในของแนวคิด ความสัมพันธ์ และแม้กระทั่งความสามารถในการใช้เหตุผลที่เกิดขึ้นจากกระบวนการเทรน การดำเนินการทางคณิตศาสตร์ยังคงง่าย แต่พฤติกรรมที่เกิดขึ้นซับซ้อนกว่าผลรวมของส่วนประกอบ
ข้อมูลจำเพาะของโมเดล GPT-2
- ขนาดคำศัพท์: 50,257 โทเค็น
- โทเค็น 464 แทน: "The"
- ความยาวของเวกเตอร์ logits แต่ละตัว: 50,257 รายการ
- มิติของ embedding ที่กล่าวถึง: 768
แนวทางการเรียนรู้เชิงปฏิบัติ
แม้จะมีการถกเถียง นักพัฒนาหลายคนพบว่าแนวทางการเรียนรู้แบบลงมือทำมีคุณค่า บทเรียนวิดีโอและแบบฝึกหัดการเขียนโค้ดเชิงโต้ตอบที่นำแนวคิดง่าย ๆ เหล่านี้มาใช้ตั้งแต่เริ่มต้นกำลังได้รับความนิยมในการสร้างความเข้าใจโดยสัญชาตญาณ
ฉันทามติดูเหมือนจะเป็นว่าแม้พีชคณิตเชิงเส้นพื้นฐานจะไม่ทำให้ใครเป็นนักวิจัย AI แต่มันให้พื้นฐานที่มั่นคงสำหรับการเข้าใจว่าระบบเหล่านี้ประมวลผลข้อมูลอย่างไรในระดับพื้นฐาน
แหล่งเรียนรู้ที่แนะนำ
- ซีรีส์วิดีโอเรื่องโครงข่ายประสาทเทียมของ Andrej Karpathy
- หนังสือ "Build a Large Language Model (from Scratch)" โดย Sebastian Raschka
- หลักสูตร Mathematics for Machine Learning and Data Science Specialization ( Coursera )
- หนังสือ "Math and Architectures of Deep Learning"
- GitHub repository: LLMs-from-scratch โดย rasbt
สรุป
การถกเถียงนี้เน้นย้ำถึงความท้าทายที่กว้างขึ้นในการศึกษา AI การสร้างสมดุลระหว่างความเข้มงวดทางคณิตศาสตร์กับความเข้าใจเชิงปฏิบัติ ในขณะที่คณิตศาสตร์ระดับมัธยมปลายอาจให้เครื่องมือพื้นฐานที่จำเป็นในการติดตามการดำเนินงาน LLM ทีละขั้นตอนจริง แต่การเข้าใจอย่างแท้จริงว่าทำไมระบบเหล่านี้ถึงทำงานได้ดีมากยังคงเป็นคำถามการวิจัยที่เปิดอยู่
สำหรับนักพัฒนาและนักเทคโนโลยีที่อยากรู้ การเริ่มต้นด้วยแนวคิดพีชคณิตเชิงเส้นพื้นฐานดูเหมือนจะเป็นจุดเริ่มต้นที่สมเหตุสมผล แม้ว่าจะไม่ได้ให้ภาพที่สมบูรณ์ของความสามารถ AI สมัยใหม่