นักพัฒนาอ้างว่าคณิตศาสตร์ระดับมัธยมปลายเพียงพอต่อการเข้าใจการทำงานของ LLMs

ทีมชุมชน BigGo
นักพัฒนาอ้างว่าคณิตศาสตร์ระดับมัธยมปลายเพียงพอต่อการเข้าใจการทำงานของ LLMs

บล็อกโพสต์ใหม่กำลังจุดประกายการถกเถียงในชุมชนเทคโนโลยีเกี่ยวกับความรู้ทางคณิตศาสตร์ที่จำเป็นจริง ๆ ในการเข้าใจ Large Language Models ผู้เขียนอ้างว่าคณิตศาสตร์พื้นฐานระดับมัธยมปลาย ได้แก่ เวกเตอร์ เมทริกซ์ และพีชคณิตเบื้องต้น ให้พื้นฐานที่เพียงพอในการเข้าใจวิธีการทำงานของระบบ AI เหล่านี้ภายใต้ฝาครอบ

โพสต์นี้มุ่งเน้นไปที่การ inference ของ LLM โดยเฉพาะ ซึ่งหมายถึงการใช้โมเดล AI ที่มีอยู่แล้วแทนที่จะเทรนโมเดลใหม่ตั้งแต่ต้น ความแตกต่างนี้มีความสำคัญเพราะการเทรนเกี่ยวข้องกับแนวคิดทางคณิตศาสตร์ที่ซับซ้อนกว่า แต่การเข้าใจว่าโมเดลที่ผ่านการเทรนแล้วประมวลผลข้อมูลอย่างไรกลับต้องใช้ทักษะทางคณิตศาสตร์พื้นฐานอย่างน่าประหลาด

องค์ประกอบทางคณิตศาสตร์หลัก

การอภิปรายมุ่งเน้นไปที่แนวคิดทางคณิตศาสตร์หลักสามประการที่เป็นกระดูกสันหลังของการดำเนินงาน LLM ประการแรก เวกเตอร์และปริภูมิหลายมิติช่วยแสดงความหมายในรูปแบบที่คอมพิวเตอร์สามารถประมวลผลได้ เมื่อ LLM ประมวลผลข้อความ มันจะแปลงคำเป็นเวกเตอร์ตัวเลขที่อยู่ในปริภูมิที่มีหลายพันมิติ ซึ่งมากกว่าที่มนุษย์สามารถจินตนาการได้ แต่ในแนวคิดแล้วคล้ายกับปริภูมิ 2 มิติและ 3 มิติที่สอนในโรงเรียน

ประการที่สอง การคูณเมทริกซ์ทำหน้าที่เป็นเครื่องมือหลักในการแปลงเวกเตอร์เหล่านี้ระหว่างปริภูมิการแสดงที่แตกต่างกัน แต่ละชั้นในโครงข่ายประสาทเทียมจะทำการคูณเมทริกซ์เพื่อฉายข้อมูลจากปริภูมิมิติหนึ่งไปยังอีกมิติหนึ่ง คล้ายกับวิธีที่กราฟิก 3 มิติถูกฉายลงบนหน้าจอ 2 มิติ

ประการที่สาม ฟังก์ชัน softmax แปลงผลลัพธ์ตัวเลขดิบเป็นการกระจายความน่าจะเป็น ช่วยให้โมเดลตัดสินใจว่าคำใดควรมาถัดไปในลำดับ การดำเนินการทางคณิตศาสตร์นี้นำคะแนนความน่าจะเป็นที่ยุ่งเหยิงมาแปลงเป็นความน่าจะเป็นที่ชัดเจนซึ่งรวมกันได้ 100%

หมายเหตุ: Softmax เป็นฟังก์ชันทางคณิตศาสตร์ที่แปลงเวกเตอร์ของตัวเลขเป็นการกระจายความน่าจะเป็นที่ค่าทั้งหมดอยู่ระหว่าง 0 และ 1 และรวมกันเท่ากับ 1

แนวคิดทางคณิตศาสตร์สำหรับความเข้าใจของ LLM

  • เวกเตอร์: อาร์เรย์ของตัวเลขที่แสดงถึงระยะทางและทิศทางในพื้นที่ n มิติ
  • การคูณเมทริกซ์: การฉายข้อมูลระหว่างพื้นที่มิติที่แตกต่างกัน
  • ฟังก์ชัน Softmax: แปลงคะแนนความน่าจะเป็นให้เป็นการกระจายความน่าจะเป็น (ค่า 0-1, รวมกัน=1)
  • เวกเตอร์ One-hot: เวกเตอร์ความน่าจะเป็นที่มีค่าหนึ่งเท่ากับ 1 และค่าอื่นๆ เท่ากับ 0
  • การฝังตัว (Embeddings): พื้นที่มิติสูงที่แนวคิดที่คล้ายกันจะจัดกลุ่มเข้าด้วยกัน

ชุมชนต่อต้านการทำให้เรื่องซับซ้อนดูง่าย

อย่างไรก็ตาม ผู้ปฏิบัติงานที่มีประสบการณ์หลายคนกำลังต่อต้านมุมมองที่ทำให้ง่ายเกินไปนี้ ผู้วิจารณ์โต้แย้งว่าแม้การดำเนินการพื้นฐานจะเป็นการคูณเมทริกซ์ง่าย ๆ จริง แต่คำอธิบายนี้พลาดภาพใหญ่ของสิ่งที่ทำให้ LLM สมัยใหม่มีพลังมาก

คณิตศาสตร์ที่ใช้เข้าใจ LLMs กล่าวคือที่อธิบายด้วยความเข้มงวดทางคณิตศาสตร์ว่าทำไม LLMs ถึงทำงานได้ ยังไม่ได้รับการพัฒนาอย่างเต็มที่ นั่นคือสิ่งที่ LLM Explainability เป็น ความพยายามในการเข้าใจและชี้แจงกระบวนการตัดสินใจที่ซับซ้อนและเป็นกล่องดำ

ความขัดแย้งเกิดจากความไม่เห็นด้วยพื้นฐานเกี่ยวกับความหมายของการเข้าใจ บางคนโต้แย้งว่าการรู้การดำเนินการทางคณิตศาสตร์เหมือนกับการเข้าใจรถยนต์โดยศึกษาเคมีของน้ำมันเบนซิน ซึ่งถูกต้องในทางเทคนิคแต่ไม่มีประโยชน์ในทางปฏิบัติสำหรับคนส่วนใหญ่ที่แค่อยากรู้ว่ารถทำงานอย่างไร

ปัญหาของขนาด

ประเด็นหลักของความขัดแย้งคือการที่เน้นคณิตศาสตร์พื้นฐานอาจบดบังความซับซ้อนที่แท้จริงของ LLM สมัยใหม่ ในขณะที่โมเดลภาษาในยุคแรกอาจเป็นเพียงตัวทำนายคำทางสถิติง่าย ๆ ระบบในปัจจุบันอย่าง GPT-4 มีพารามิเตอร์มากกว่าหนึ่งล้านล้านตัวที่ทำงานร่วมกันในรูปแบบที่นักวิจัยยังไม่เข้าใจอย่างเต็มที่

โครงข่ายขนาดใหญ่เหล่านี้ดูเหมือนจะพัฒนาการแสดงภายในของแนวคิด ความสัมพันธ์ และแม้กระทั่งความสามารถในการใช้เหตุผลที่เกิดขึ้นจากกระบวนการเทรน การดำเนินการทางคณิตศาสตร์ยังคงง่าย แต่พฤติกรรมที่เกิดขึ้นซับซ้อนกว่าผลรวมของส่วนประกอบ

ข้อมูลจำเพาะของโมเดล GPT-2

  • ขนาดคำศัพท์: 50,257 โทเค็น
  • โทเค็น 464 แทน: "The"
  • ความยาวของเวกเตอร์ logits แต่ละตัว: 50,257 รายการ
  • มิติของ embedding ที่กล่าวถึง: 768

แนวทางการเรียนรู้เชิงปฏิบัติ

แม้จะมีการถกเถียง นักพัฒนาหลายคนพบว่าแนวทางการเรียนรู้แบบลงมือทำมีคุณค่า บทเรียนวิดีโอและแบบฝึกหัดการเขียนโค้ดเชิงโต้ตอบที่นำแนวคิดง่าย ๆ เหล่านี้มาใช้ตั้งแต่เริ่มต้นกำลังได้รับความนิยมในการสร้างความเข้าใจโดยสัญชาตญาณ

ฉันทามติดูเหมือนจะเป็นว่าแม้พีชคณิตเชิงเส้นพื้นฐานจะไม่ทำให้ใครเป็นนักวิจัย AI แต่มันให้พื้นฐานที่มั่นคงสำหรับการเข้าใจว่าระบบเหล่านี้ประมวลผลข้อมูลอย่างไรในระดับพื้นฐาน

แหล่งเรียนรู้ที่แนะนำ

  • ซีรีส์วิดีโอเรื่องโครงข่ายประสาทเทียมของ Andrej Karpathy
  • หนังสือ "Build a Large Language Model (from Scratch)" โดย Sebastian Raschka
  • หลักสูตร Mathematics for Machine Learning and Data Science Specialization ( Coursera )
  • หนังสือ "Math and Architectures of Deep Learning"
  • GitHub repository: LLMs-from-scratch โดย rasbt

สรุป

การถกเถียงนี้เน้นย้ำถึงความท้าทายที่กว้างขึ้นในการศึกษา AI การสร้างสมดุลระหว่างความเข้มงวดทางคณิตศาสตร์กับความเข้าใจเชิงปฏิบัติ ในขณะที่คณิตศาสตร์ระดับมัธยมปลายอาจให้เครื่องมือพื้นฐานที่จำเป็นในการติดตามการดำเนินงาน LLM ทีละขั้นตอนจริง แต่การเข้าใจอย่างแท้จริงว่าทำไมระบบเหล่านี้ถึงทำงานได้ดีมากยังคงเป็นคำถามการวิจัยที่เปิดอยู่

สำหรับนักพัฒนาและนักเทคโนโลยีที่อยากรู้ การเริ่มต้นด้วยแนวคิดพีชคณิตเชิงเส้นพื้นฐานดูเหมือนจะเป็นจุดเริ่มต้นที่สมเหตุสมผล แม้ว่าจะไม่ได้ให้ภาพที่สมบูรณ์ของความสามารถ AI สมัยใหม่

อ้างอิง: The maths you need to start understanding LLMs