การทดลองที่น่าสนใจได้ดึงดูดความสนใจของนักวิจัย AI และผู้ที่สนใจ: โมเดลภาษาที่แข็งแกร่งที่สุดที่คุณสามารถฝึกบนแล็ปท็อปธรรมดาในเวลาเพียงห้านาทีคืออะไร? แม้ว่าคำถามนี้อาจฟังดูไร้สาระในตอนแรก แต่ผลลัพธ์ได้จุดประกายการอภิปรายที่มีความหมายเกี่ยวกับการเข้าถึง AI ประสิทธิภาพ และอนาคตของการฝึกโมเดลในระดับท้องถิ่น
ความท้าทายนี้เกิดขึ้นจากความอยากรู้อยากเห็นง่ายๆ แต่ได้เผยให้เห็นข้อมูลเชิงลึกที่สำคัญเกี่ยวกับการพัฒนา AI ขนาดเล็ก ในยุคที่โมเดลขนาดใหญ่ครองหัวข้อข่าว การทดลองนี้ตั้งคำถามว่าฮาร์ดแวร์ในชีวิตประจำวันยังสามารถมีส่วนร่วมอย่างมีความหมายในการวิจัยและพัฒนา AI หรือไม่
จุดที่เหมาะสม: 1.8 ล้านพารามิเตอร์
การกำหนดค่าที่ชนะเลิศกลับกลายเป็นโมเดล transformer ขนาดกะทัดรัดที่มีพารามิเตอร์ประมาณ 1.8 ล้านตัว ฝึกด้วย 20 ล้านโทเค็นจากชุดข้อมูล TinyStories การตั้งค่านี้ได้คะแนน perplexity 9.6 สร้างเรื่องราวที่สอดคล้องกันแม้จะเรียบง่าย แต่ปฏิบัติตามกฎไวยากรณ์พื้นฐานและโครงสร้างการเล่าเรื่อง
การเลือกชุดข้อมูลพิสูจน์แล้วว่ามีความสำคัญ การทดลองเริ่มแรกกับ Simple English Wikipedia ได้ผลลัพธ์ที่สับสนในเชิงข้อเท็จจริง โดยโมเดลหมกมุ่นกับคำนามเฉพาะและสร้างประโยคเช่น Paris, France is a city in North Carolina ชุดข้อมูล TinyStories ที่ประกอบด้วยเรื่องราวง่ายๆ ที่เขียนในระดับการอ่านของเด็ก 4 ขวบ ให้ผลลัพธ์ที่ดีกว่ามากสำหรับโมเดลขนาดเล็กในการเรียนรู้
TinyStories: ชุดข้อมูลสังเคราะห์ของเรื่องสั้นง่ายๆ ที่ออกแบบมาเป็นพิเศษสำหรับการฝึกโมเดลภาษาขนาดเล็ก
การกำหนดค่าการฝึกอบรม 5 นาทีที่เหมาะสมที่สุด
- ขนาดโมเดล: ประมาณ 1.8 ล้านพารามิเตอร์
- ชุดข้อมูล: TinyStories (20 ล้านโทเค็น)
- สถาปัตยกรรม: GPT-style transformer พร้อม SwiGLU activation
- ชั้น: 2-3 ชั้นที่เหมาะสมที่สุด
- อัตราการเรียนรู้: 0.001-0.002
- ค่า perplexity สุดท้าย: ประมาณ 9.6
- ความเร็วในการฝึกอบรม: ประมาณ 56,000 โทเค็นต่อวินาทีสำหรับโมเดล 2.5 ล้านพารามิเตอร์
ข้อจำกัดของฮาร์ดแวร์ขับเคลื่อนนวัตกรรม
ข้อจำกัดห้านาทีบังคับให้ใช้กลยุทธ์การปรับปรุงประสิทธิภาพที่สร้างสรรค์ การปรับปรุงประสิทธิภาพแบบดั้งเดิมเช่น gradient accumulation และการปรับปรุงทางคณิตศาสตร์กลับทำให้การฝึกช้าลงในระดับนี้ คอขวดที่ใหญ่ที่สุดกลับกลายเป็น GPU launches - ค่าใช้จ่ายในการบอกตัวประมวลผลกราฟิกว่าต้องทำอะไร
การอภิปรายในชุมชนได้เน้นให้เห็นว่าข้อจำกัดนี้สะท้อนสถานการณ์ในโลกจริงที่นักวิจัยมีงบประมาณการคำนวณจำกัดหรือต้องการรอบการทำซ้ำอย่างรวดเร็ว การทดลองแสดงให้เห็นว่าการวิจัย AI ที่มีความหมายไม่จำเป็นต้องใช้ทรัพยากร cloud computing ที่แพงเสมอไป
การเปรียบเทียบประสิทธิภาพฮาร์ดแวร์
- MacBook Pro (MPS): ประมาณ 3,000 โทเค็นต่อวินาทีเป็นค่าพื้นฐาน
- MLX เทียบกับ PyTorch: ไม่มีความแตกต่างด้านประสิทธิภาพอย่างมีนัยสำคัญ
- การสะสมเกรเดียนต์: ทำให้การฝึกฝนช้าลงหลายเท่าตัว
- torch.compile และ float16: ไม่มีการปรับปรุงที่มีความหมายในระดับเล็ก
- ปัญหาหลัก: ค่าใช้จ่ายในการเปิดใช้งาน GPU ไม่ใช่ความจุในการคำนวณ
กฎการปรับขนาดใช้ได้แม้ในระดับเล็ก
สิ่งที่น่าประหลาดใจที่สุดคือกฎการปรับขนาด Chinchilla ที่รู้จักกันดียังคงเป็นจริงแม้ในระดับเล็กนี้ กฎเหล่านี้ทำนายขนาดโมเดลที่เหมาะสมตามโทเค็นการฝึกที่มีอยู่ และผลการทดลองตรงกับการทำนายทางทฤษฎีอย่างใกล้ชิด สำหรับโมเดลที่ฝึกด้วยประมาณ 30 ล้านโทเค็นในห้านาที ขนาดที่เหมาะสมอยู่ระหว่าง 1-1.5 ล้านพารามิเตอร์
การค้นพบนี้ชี้ให้เห็นว่าหลักการพื้นฐานของ AI ยังคงสอดคล้องกันในระดับที่แตกต่างกันอย่างมาก ตั้งแต่โมเดลพันล้านพารามิเตอร์ลงไปจนถึงการทดลองขนาดแล็ปท็อป
การตรวจสอบกฎการปรับขนาดของ Chinchilla
- ขนาดโมเดลที่เหมาะสม = จำนวน token ทั้งหมดในการฝึก ÷ 20
- โมเดล 2.5M พารามิเตอร์: 56k token/วินาที → 16.8M token ใน 5 นาที → ขนาดที่เหมาะสม: 0.84M พารามิเตอร์
- โมเดล 1M พารามิเตอร์: 100k token/วินาที → 30M token ใน 5 นาที → ขนาดที่เหมาะสม: 1.5M พารามิเตอร์
- ผลการทดลองตรงกับการทำนายเชิงทฤษฎีอย่างใกล้เคียง
ผลกระทบในวงกว้าง
การทดลองได้สะท้อนกับชุมชน AI ด้วยเหตุผลหลายประการนอกเหนือจากความอยากรู้อยากเห็นเพียงอย่างเดียว นักวิจัยเปรียบเทียบการศึกษาโมเดลขนาดเล็กกับการใช้สิ่งมีชีวิตง่ายๆ เช่นยีสต์ในการวิจัยทางชีววิทยา - พวกมันให้สภาพแวดล้อมที่ควบคุมได้สำหรับการทำความเข้าใจพฤติกรรมพื้นฐานที่อาจถูกบดบังในระบบที่ใหญ่และซับซ้อนกว่า
การฝึกโมเดลขนาดเล็กที่ปรับปรุงแล้วไม่เพียงสำคัญสำหรับความพร้อมใช้งานเท่านั้น แต่ยังสำหรับการศึกษาทางวิทยาศาสตร์ของ LLMs เราจำเป็นต้องศึกษา transformers ที่เรียบง่ายที่สุดเท่าที่เป็นไปได้ที่แสดงพฤติกรรมที่น่าสนใจจากโมเดลที่ใหญ่กว่า หากเราหวังว่าจะเข้าใจ LLMs และมีการควบคุมพฤติกรรมของพวกมันมากขึ้น
ปัจจัยการเข้าถึงก็มีความสำคัญอย่างมาก ในขณะที่ cloud computing เสนอทางเลือกที่ทรงพลังกว่า การฝึกในท้องถิ่นขจัดความกังวลเกี่ยวกับความเป็นส่วนตัวของข้อมูล ค่าใช้จ่ายที่ไม่คาดคิด และกระบวนการอนุมัติขององค์กร สำหรับนักวิจัยและผู้ที่สนใจหลายคน การสามารถทดลองทันทีบนฮาร์ดแวร์ที่มีอยู่ขจัดอุปสรรคสำคัญในการเข้าถึง
พลังงานเทียบกับเวลา: มุมมองใหม่
การอภิปรายยังได้ตั้งคำถามเกี่ยวกับวิธีที่เราวัดประสิทธิภาพการฝึก AI สมาชิกชุมชนบางคนแนะนำว่าการใช้พลังงานอาจเป็นข้อจำกัดที่มีความหมายมากกว่าเวลา เนื่องจากจะสร้างการเปรียบเทียบที่ยุติธรรมกว่าระหว่างการกำหนดค่าฮาร์ดแวร์ที่แตกต่างกันและส่งเสริมแนวทางที่มีประสิทธิภาพอย่างแท้จริง
มุมมองนี้อาจนำไปสู่ทิศทางการวิจัยใหม่ที่เน้นวิธีการฝึกที่ประหยัดพลังงาน ซึ่งจะเป็นประโยชน์ทั้งผู้ใช้แล็ปท็อปและศูนย์ข้อมูลขนาดใหญ่ที่กังวลเกี่ยวกับผลกระทบต่อสิ่งแวดล้อม
มองไปข้างหน้า
แม้ว่าการฝึกแล็ปท็อปห้านาทีจะไม่สามารถแข่งขันกับการพัฒนา AI ระดับอุตสาหกรรมได้อย่างชัดเจน แต่การทดลองแสดงให้เห็นว่าการวิจัยและการทดลองที่มีความหมายยังคงเป็นไปได้บนฮาร์ดแวร์สำหรับผู้บริโภค เมื่อตัวประมวลผลแล็ปท็อปมีพลังมากขึ้นและเทคนิคการฝึกมีประสิทธิภาพมากขึ้น ความสามารถของการฝึกท้องถิ่นอย่างรวดเร็วน่าจะยังคงปรับปรุงต่อไป
การทดลองเป็นเครื่องเตือนใจว่านวัตกรรมใน AI ไม่จำเป็นต้องใช้งบประมาณที่ใหญ่ที่สุดหรือฮาร์ดแวร์ที่ทรงพลังที่สุดเสมอไป บางครั้งข้อมูลเชิงลึกที่น่าสนใจที่สุดมาจากการทำงานภายใต้ข้อจำกัดที่เข้มงวดและการหาแนวทางแก้ไขที่สร้างสรรค์สำหรับความท้าทายที่ดูเหมือนเป็นไปไม่ได้
อ้างอิง: What's the strongest AI model you can train on a laptop in five minutes?