บทความล่าสุดที่อ้างว่าสมมติฐานลอตเตอรี่ทิกเก็ตอธิบายได้ว่าทำไมโมเดล AI ขนาดใหญ่จึงทำงานได้ ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี โดยผู้เชี่ยวชาญตั้งคำถามทั้งข้อเรียกร้องทางประวัติศาสตร์และคำอธิบายทางเทคนิคที่นำเสนอ
ข้อเรียกร้องทางประวัติศาสตร์ถูกโจมตี
การอ้างของบทความที่ว่าการวิจัย AI มีประวัติศาสตร์ยาวนาน 300 ปีได้ดึงดูดความสงสัยทันทีจากชุมชน แม้ว่าแนวคิดทางสtatisticsบางอย่างเช่น linear regression จะมีมาประมาณ 220 ปีย้อนกลับไปถึงงานของ Legendre ในปี 1805 แต่ผู้เชี่ยวชาญชี้ให้เห็นว่า bias-variance tradeoff นั้นเป็นเรื่องที่ใหม่กว่ามาก การอ้างอย่างกว้างๆ ว่าหลักการนี้ควบคุมระบบการเรียนรู้ทุกระบบเป็นเวลาสามศตวรรษดูเหมือนจะเป็นการพูดเกินจริงที่ผสมผสานแนวคิด machine learning สมัยใหม่เข้ากับวิธีการทางสถิติที่เก่ากว่ามาก
ไทม์ไลน์ทางประวัติศาสตร์:
- ~1805: Legendre อธิบายการถดถอยเชิงเส้น (~220 ปีที่แล้ว)
- 2018: สมมติฐาน lottery ticket ถูกแนะนำโดย Frankle และ Carbin ที่ MIT
- 2019: ปรากฏการณ์ double descent ถูกบันทึกโดย Belkin และเพื่อนร่วมงาน
- ปัจจุบัน: โมเดล mixture of experts ใช้การเปิดใช้งานพารามิเตอร์แบบเลือกสรร
คำอธิบายทางเลือกสำหรับความสำเร็จของโมเดล AI
สมาชิกชุมชนกำลังเสนอคำอธิบายที่เรียบง่ายกว่าสำหรับเหตุผลที่ large language models ทำงานได้ดีมาก ข้อโต้แย้งหลักชี้ให้เห็นว่าความก้าวหน้าไม่ได้เกี่ยวกับขนาดของโมเดลเพียงอย่างเดียว แต่เป็นเรื่องของการกำหนดปัญหาให้เป็นงาน next-word prediction วิธีการนี้สร้างการเข้าถึงชุดข้อมูลระดับอินเทอร์เน็ตที่มีตัวอย่างที่มีป้ายกำกับหลายล้านล้านตัวอย่าง ให้โครงสร้างที่อุดมไปด้วยข้อมูลที่จำเป็นเพื่อทำให้โมเดลขนาดใหญ่มีประโยชน์
LLMs ไม่ได้หักล้าง bias-variance tradeoff เราแค่พบข้อมูลมากขึ้นและ GPUs ที่จะเรียนรู้จากมัน
บทบาทของความก้าวหน้าทางการคำนวณไม่สามารถมองข้ามได้ การเพิ่มขึ้นอย่างมหาศาลของพลังการคำนวณที่มีอยู่ในทศวรรษที่ผ่านมาทำให้การฝึกอบรมที่เคยใช้เวลาตลอดชีวิตกลายเป็นไปได้ในทันที เปิดโอกาสใหม่ทั้งหมดสำหรับการขยายโมเดล
ข้อกังวลทางเทคนิคเกี่ยวกับคำอธิบายสมมติฐานลอตเตอรี่ทิกเก็ต
ประเด็นทางเทคนิคหลายประการได้เกิดขึ้นในการอภิปรายของชุมชนเกี่ยวกับคำอธิบายสมมติฐานลอตเตอรี่ทิกเก็ต ผู้เชี่ยวชาญคนหนึ่งสังเกตว่าบทความให้คำอธิบายที่แย่มาก/ผิดของสมมติฐานลอตเตอรี่ทิกเก็ตจริง โดยอ้างอิงถึงเอกสารการวิจัยต้นฉบับเพื่อเปรียบเทียบ
คำถามเรื่อง overfitting ยังคงเป็นที่ถกเถียง บางคนโต้แย้งว่าสิ่งที่เราเห็นไม่ใช่การไม่มี overfitting แต่เป็น overfitting ที่ซ่อนอยู่ซึ่งจะปรากฏชัดเมื่อโมเดลพบกับตัวอย่าง adversarial - ข้อมูลนำเข้าที่สร้างขึ้นอย่างระมัดระวังเพื่อเปิดเผยการจดจำของโมเดลมากกว่าความเข้าใจที่แท้จริง
ผลกระทบในทางปฏิบัติและประสิทธิภาพของโมเดล
หากสมมติฐานลอตเตอรี่ทิกเก็ตถูกต้องตามที่นำเสนอ มันจะทำให้เกิดคำถามสำคัญเกี่ยวกับประสิทธิภาพของโมเดล สมาชิกชุมชนชี้ให้เห็นว่าหาก 99% ของ model weights แทนลอตเตอรี่ทิกเก็ตที่ล้มเหลว สิ่งนี้ควรทำให้การคำนวณ inference ส่วนใหญ่ไม่จำเป็น อย่างไรก็ตาม ความเป็นจริงมีความซับซ้อนมากกว่า - ชุดย่อยที่แตกต่างกันของ weights จะทำงานสำหรับปัญหาประเภทต่างๆ ทำให้เครือข่ายเต็มรูปแบบจำเป็นสำหรับประสิทธิภาพแบบ general-purpose
เทคนิคสมัยใหม่เช่นโมเดล mixture of experts ได้นำหลักการนี้ไปใช้ในระดับหนึ่งแล้ว โดยมีเพียงส่วนเล็กๆ ของพารามิเตอร์ทั้งหมดที่ทำงานสำหรับข้อมูลนำเข้าใดๆ ชี้ให้เห็นว่าสาขานี้ได้เคลื่อนไปสู่สถาปัตยกรรมที่มีประสิทธิภาพมากขึ้นแล้ว
การเปรียบเทียบขนาดโมเดล:
- วิวัฒนาการของซีรีส์ GPT : 117 ล้าน → 175 พันล้านพารามิเตอร์
- โมเดล Kimi K2 : 32B พารามิเตอร์ที่ใช้งานจริงจากทั้งหมด 1T (3.2% ที่ใช้งานจริง)
- ความสามารถในการตัดทอน: สามารถลบพารามิเตอร์ได้ถึง 96% โดยไม่สูญเสียความแม่นยำ
คำถามเรื่องสติปัญญายังคงเปิดอยู่
บางทีการถกเถียงที่พื้นฐานที่สุดจะเป็นศูนย์กลางในสิ่งที่ทั้งหมดนี้หมายถึงสำหรับการเข้าใจสติปัญญาเอง สมาชิกชุมชนบางคนแนะนำว่าหากคำอธิบายถูกต้อง มันอาจบ่งชี้ว่าระบบเหล่านี้ไม่ได้ฉลาดอย่างแท้จริงเลย - พวกมันเป็นเพียงระบบจับคู่รูปแบบที่ซับซ้อนมากที่มีความรู้พื้นฐานที่กว้างขวาง
การอภิปรายเผยให้เห็นความตึงเครียดที่ลึกกว่าในการวิจัย AI ระหว่างผู้ที่มองโมเดลขนาดใหญ่ปัจจุบันเป็นก้าวย่างสู่สติปัญญาแท้จริงและผู้ที่มองพวกมันเป็นระบบที่มีข้อจำกัดพื้นฐานที่เก่งในการจดจำรูปแบบทางสถิติโดยไม่มีความเข้าใจที่แท้จริง
ขณะที่สาขา AI ยังคงพัฒนาอย่างรวดเร็ว การถกเถียงเหล่านี้เน้นย้ำถึงความสำคัญของการวิเคราะห์อย่างเข้มงวดและการตรวจสอบโดยเพื่อนร่วมงานในการเข้าใจว่าทำไมระบบที่ทรงพลังที่สุดของเราจึงทำงาน - และข้อจำกัดของพวกมันอาจเป็นอย่างไร
อ้างอิง: How Al researchers accidentally discovered that everything they thought about learning was wrong
