ชุมชน AI กำลังตื่นตัวอย่างมากหลังการเปิดตัว nanochat ของ Andrej Karpathy ซึ่งเป็นโปรแกรม ChatGPT ที่สมบูรณ์และสามารถฝึกฝนได้ด้วยเงินเพียง 100 ดอลลาร์สหรัฐ โค้ดเบสที่เรียบง่ายนี้ทำให้เหล่านักพัฒนาต่างเร่งฝึกฝนเพื่อทำซ้ำผลลัพธ์ ในขณะที่ก็เกิดการอภิปรายเกี่ยวกับการเข้าถึง AI เทคนิคการเพิ่มประสิทธิภาพ และอนาคตของการพัฒนา AI แบบโอเพนซอร์ส
ชุมชนตื่นรับประสบการณ์การฝึกฝนด้วยตนเอง
ภายในไม่กี่ชั่วโมงหลังการประกาศ นักพัฒนาก็เริ่มแชร์ความคืบหน้าและผลลัพธ์การฝึกฝนของพวกเขาผ่านแพลตฟอร์มต่างๆ ผู้ใช้หนึ่งคนระบุว่าพวกเขาได้เริ่มการฝึกฝนแล้วและกำลังแชร์ความคืบหน้าผ่านทางเมตริก WandB อย่างเปิดเผย การมีส่วนร่วมทันทีของชุมชนแสดงให้เห็นถึงความกระหายในเฟรมเวิร์กการฝึก AI ที่เข้าถึงได้ และไม่ต้องการทรัพยากรคอมพิวเตอร์มหาศาลหรือการสนับสนุนจากองค์กรใหญ่
ฉันกำลังทำการฝึกฝนอยู่ตอนนี้ (เริ่มเมื่อ 20 นาทีที่แล้ว) คุณสามารถติดตามได้ที่ https://api.wandb.ai/links/sjd333-none/dsv4zkij จะแชร์โมเดลที่ได้เมื่อพร้อม (อีก 4 ชั่วโมงจากนี้) ให้ทุกคนได้ทดสอบการทำ inference
แนวทางการฝึกแบบ speedrun นี้ได้รับการตอบรับเป็นพิเศษจากนักพัฒนา โดยมีผู้ใช้หลายคนขอคำแนะนำโดยละเอียดเกี่ยวกับวิธีการทำซ้ำกระบวนการฝึก เวลาการฝึกเพียงสี่ชั่วโมงทำให้การทดลองเป็นไปได้สำหรับบุคคลและทีมขนาดเล็ก ซึ่งช่วยลดอุปสรรคในการทำความเข้าใจการฝึก LLM ตั้งแต่เริ่มต้นจนจบ
นวัตกรรมทางเทคนิคและการอภิปรายเกี่ยวกับการเพิ่มประสิทธิภาพ
การใช้งานตัวเพิ่มประสิทธิภาพ Muon ของโปรเจกต์นี้ได้ก่อให้เกิดการอภิปรายทางเทคนิคอย่างมีนัยสำคัญ สมาชิกในชุมชนได้ติดตามที่มาของมันตั้งแต่รากฐานทางทฤษฎีไปจนถึงการนำไปปฏิบัติจริง โดยเน้นย้ำว่าการคิดค้นล่าสุดกำลังถูกนำไปใช้ในสภาพแวดล้อมการผลิตอย่างรวดเร็ว การอภิปรายเกี่ยวกับการเพิ่มประสิทธิภาพเผยให้เห็นว่างานวิจัยล้ำสมัยกำลังเข้ามาสู่โปรเจกต์ที่เข้าถึงได้อย่างรวดเร็ว
นอกจากนี้ยังมีการสนทนาที่活跃เกี่ยวกับข้อกำหนดด้านฮาร์ดแวร์และการปรับขนาด แม้การกำหนดค่าเริ่มต้นจะกำหนดเป้าหมายที่ 8×H100 nodes แต่สมาชิกในชุมชนกำลังทดลองด้วยขนาดแบตช์ที่ลดลงเพื่อรองรับ GPU ขนาดเล็กกว่า ความยืดหยุ่นในการทำงานบน GPU เดี่ยวหรือการกำหนดค่าที่ใช้หน่วยความจำน้อยกว่าทำให้โปรเจกต์นี้เข้าถึงผู้ชมได้กว้างขึ้น แม้ว่าจะเพิ่มเวลาในการฝึกฝน
ข้อกำหนดด้านฮาร์ดแวร์และตัวเลือกการปรับขนาด
- ค่าเริ่มต้น: โหนด H100 8 ตัว (VRAM 80GB แต่ละตัว)
- ทางเลือก: GPU เดี่ยวพร้อม gradient accumulation (ช้ากว่า 8 เท่า)
- การปรับแต่งหน่วยความจำ: ลด --device_batch_size จาก 32 เป็น 16, 8, 4, 2 หรือ 1
- รองรับ Ampere A100 (ประสิทธิภาพช้ากว่า)
ผลกระทบด้านการศึกษาและการบูรณาการกับหลักสูตร
การประกาศว่า nanochat จะทำหน้าที่เป็นโปรเจกต์สุดท้ายสำหรับหลักสูตร LLM101n ที่จะมาถึงของ Karpathy ผ่าน Eureka Labs ได้สร้างความสนใจอย่างมากในชุมชนการศึกษา ผู้แสดงความคิดเห็นต่างแสดงความกระตือรือร้นต่อแนวทางการเรียนรู้แบบปฏิบัติ โดยหลายคนระบุว่าพวกเขาจะเป็นคนแรกที่ลงทะเบียนเมื่อหลักสูตรเปิดตัว
จุดสนใจด้านการศึกษานี้สอดคล้องกับประวัติของ Karpathy ในการสร้างแหล่งข้อมูลการเรียนรู้ที่เข้าถึงได้ ผู้แสดงความคิดเห็นหลายคนกล่าวถึงโปรเจกต์ nanoGPT ก่อนหน้าของเขาในฐานะการแนะนำการใช้งาน LLM ของพวกเขา ชี้ให้เห็นว่า nanochat อาจมีบทบาทคล้ายกันสำหรับนักพัฒนา AI รุ่นต่อไปที่ต้องการเข้าใจกระบวนการฝึกฝน LLM ที่สมบูรณ์
ความกังวลเกี่ยวกับการเข้าถึงและความเป็นจริงของต้นทุน
ในขณะที่เฉลิมฉลองถึงความสามารถในการจ่ายได้ของโปรเจกต์ ชุมชนก็มีส่วนร่วมในการอภิปรายที่ละเอียดอ่อนเกี่ยวกับสิ่งที่ 100 ดอลลาร์ หมายถึงอย่างแท้จริงในบริบทนี้ บางคนในначалоเข้าใจผิดว่าค่าใช้จ่ายนี้ครอบคลุมการซื้อฮาร์ดแวร์ แทนที่จะเป็นการเช่าคำนวณบนคลาวด์ นำไปสู่การชี้แจงเกี่ยวกับข้อกำหนดโครงสร้างพื้นฐานที่แท้จริง
การสนทนาได้ขยายไปสู่ความกังวลที่กว้างขึ้นเกี่ยวกับต้นทุนการพัฒนา AI และว่าประเพณีโอเพนซอร์สจะสามารถดำเนินต่อไปได้หรือไม่ เนื่องจากข้อกำหนดด้านการคำนวณที่สูง อย่างไรก็ตาม เสียงในแง่ดีชี้ให้เห็นว่าการฝึกฝนด้วยเงิน 100 ดอลลาร์ในวันนี้เป็นสิ่งที่ไม่อาจจินตนาการได้เมื่อไม่กี่ปีที่ผ่านมา ชี้ให้เห็นว่าต้นทุนจะยังคงลดลงเรื่อยๆ ตามกาลเวลา
ระดับต้นทุนการฝึกที่กล่าวถึงในการสนทนาของชุมชน
- ระดับ $100 USD: เวลาฝึก 4 ชั่วโมง ประสิทธิภาพระดับ "เด็กอนุบาล"
- ระดับ $300 USD: เวลาฝึกประมาณ 12 ชั่วโมง มีประสิทธิภาพเหนือกว่าคะแนน CORE ของ GPT-2
- ระดับ $1000 USD: เวลาฝึกประมาณ 41.6 ชั่วโมง
ความคาดหวังด้านประสิทธิภาพและการใช้งานจริง
สมาชิกในชุมชนมีความเป็น現實เกี่ยวกับความสามารถของโมเดลที่ฝึกฝนด้วยทรัพยากรการคำนวณที่จำกัด ประสิทธิภาพระดับเด็กอนุบาลที่ระบุไว้ในเอกสารประกอบได้กำหนดความคาดหวังที่เหมาะสม ในขณะที่ยังแสดงให้เห็นถึงหลักการพื้นฐานของการฝึกฝนและใช้งาน LLM
การอภิปรายเกี่ยวกับการใช้งานที่เป็นไปได้เผยให้เห็นถึงความสนใจในการปรับแต่งเฉพาะด้านสำหรับงานในโดเมนเฉพาะ ผู้แสดงความคิดเห็นหลายคนสำรวจว่าพวกเขาสามารถฝึก nanochat บนชุดข้อมูลเฉพาะทาง เช่น วัสดุทางจิตวิทยาหรือเอกสารทางเทคนิคได้หรือไม่ แม้ว่าสมาชิกที่มีประสบการณ์มากกว่าจะเตือนว่าการปรับแต่งโมเดลที่มีอยู่หรือการใช้แนวทาง RAG น่าจะให้ผลลัพธ์ที่ดีกว่าสำหรับกรณีการใช้งานดังกล่าว
การเปิดตัว nanochat เป็น вехиที่สำคัญในการทำให้การพัฒนา AI เป็นประชาธิปไตย ด้วยการให้การใช้งานที่สมบูรณ์และเข้าใจได้ ซึ่งทำงานบนฮาร์ดแวร์ที่เข้าถึงได้ Karpathy ได้มอบทั้งเครื่องมือปฏิบัติและแหล่งข้อมูลทางการศึกษาให้กับชุมชนนักพัฒนา การตอบรับอย่างกระตือรือรายและการทดลองทันทีแสดงให้เห็นว่ามีความต้องการอย่างมากสำหรับโปรเจกต์ที่เชื่อมช่องว่างระหว่างความเข้าใจทางทฤษฎีและการนำไปปฏิบัติจริงในภูมิทัศน์ AI ที่พัฒนาอย่างรวดเร็ว
อ้างอิง: nanochat