นักพัฒนาคนหนึ่งได้สร้างโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรงที่น่าประทับใจชื่อ Terminal-Bench-RL สำหรับฝึกอบรม AI agents ให้ทำงาน terminal ต่างๆ แต่โครงการนี้เผยให้เห็นถึงความท้าทายที่เพิ่มขึ้นในการพัฒนา AI นั่นคือต้นทุนที่สูงเกินไปในการฝึกอบรมโมเดลที่มีความสามารถในการแข่งขัน
โครงการนี้แสดงให้เห็นถึงความสำเร็จทางเทคนิคในการสร้างโครงสร้างพื้นฐานการฝึกอบรมที่สามารถขยายขนาดได้และจัดการกับมากกว่า 1 ล้านขั้นตอนต่อวินาทีในหลาย compute nodes อย่างไรก็ตาม การอพยพในชุมชนเผยให้เห็นความแตกต่างที่สำคัญซึ่งทำให้ผู้สังเกตการณ์หลายคนเข้าใจผิดในตอนแรก
ข้อมูลจำเพาะของโครงสร้างพื้นฐานการฝึกอบรม:
- ความสามารถในการขยายขนาด: >1 ล้านขั้นตอน/วินาที ผ่าน 8+ โหนด
- อัลกอริทึม: Group Relative Policy Optimization ( GRPO )
- การรองรับฮาร์ดแวร์: การกำหนดค่า 4-32 GPU
- ความยาวลำดับ: สูงสุด 12,710 โทเค็น
- ระยะเวลาการฝึกอบรม: 15 นาทีต่อการผ่านชุดข้อมูลหนึ่งครั้ง
- หน่วยความจำ: เทนเซอร์ 1.5GB ต่ออินสแตนซ์
ความสำเร็จที่แท้จริงเทียบกับการอ้างสิทธิ์ทางการตลาด
สมาชิกในชุมชนได้ชี้แจงอย่างรวดเร็วว่าสิ่งที่สำเร็จจริงๆ เทียบกับสิ่งที่โครงการดูเหมือนจะอ้างสิทธิ์ นักพัฒนาได้สร้างโครงสร้างพื้นฐานการฝึกอบรมที่ซับซ้อนแต่ไม่ได้ใช้งานจริงในการฝึกอบรมโมเดลเนื่องจากข้อจำกัดด้านต้นทุน แต่พวกเขาได้คะแนน 13.75% ใน Terminal-Bench โดยใช้ prompt engineering และ custom scaffolding กับโมเดล Qwen3-32B โดยไม่มีการฝึกอบรมเลย
ความแตกต่างนี้มีความสำคัญเพราะแสดงให้เห็นถึงความแตกต่างระหว่างการมีความสามารถทางเทคนิคในการสร้างระบบฝึกอบรมกับการมีทรัพยากรในการใช้งานจริง โครงสร้างพื้นฐานนี้เองแสดงถึงงานวิศวกรรมที่สำคัญ ครอบคลุมหลายชุดทักษะตั้งแต่ distributed computing ไปจนถึง reinforcement learning
ผลลัพธ์ประสิทธิภาพ:
- คะแนน Terminal-Bench: 13.75% (ใช้เฉพาะ prompt engineering)
- โมเดลพื้นฐาน: Qwen3-32B
- วิธีการ: Custom scaffolding และ system prompts
- ต้นทุนการฝึก: หลายพันดอลลาร์สหรัฐฯ ในระดับต่ำ (เฉพาะโครงสร้างพื้นฐานเท่านั้น)
- การฝึกจริง: ไม่ได้ทำให้เสร็จสิ้นเนื่องจากข้อจำกัดด้านต้นทุน
ปัญหาความยากจนด้าน GPU
โครงการนี้เผยให้เห็นสิ่งที่บางคนในชุมชนเรียกว่าความยากจนด้าน GPU ซึ่งเป็นความจริงที่ว่านักพัฒนาแต่ละคนและทีมเล็กๆ มักขาดทรัพยากรด้านการคำนวณที่จะแข่งขันกับ AI labs ขนาดใหญ่ แม้ว่านักพัฒนาจะใช้เงินไปแล้วหลายพันดอลลาร์สหรัฐในโครงการนี้ แต่ก็ยังไม่เพียงพอที่จะดำเนินการฝึกอบรมที่มีความหมาย
ที่คุณใช้เงินไปในระดับหลายพัน (จากที่เห็น) และสามารถเอาชนะ GPT4.1 ได้นั้นเป็นข้อมูลเชิงลึกที่น่าทึ่งเกี่ยวกับคูคันดิงของ AI labs ขนาดใหญ่
ความคิดเห็นนี้เน้นย้ำว่าอุปสรรคด้านต้นทุนสร้างคูคันดิงที่สำคัญรอบๆ บริษัท AI ขนาดใหญ่ ซึ่งอาจจำกัดนวัตกรรมให้อยู่เฉพาะองค์กรที่มีเงินทุนเพียงพอ
![]() |
---|
เมตริกประสิทธิภาพสำหรับ GPU NVIDIA H100 ที่แสดงให้เห็นถึงความท้าทายของความพร้อมใช้งานทรัพยากรในการฝึก AI |
โครงสร้างพื้นฐานทางเทคนิคและความสนใจของชุมชน
แม้จะมีข้อจำกัดด้านต้นทุน แต่งานทางเทคนิคก็ได้รับความสนใจอย่างแท้จริง ระบบใช้ VERL ( Volcengine 's reinforcement learning framework) เป็นพื้นฐานและใช้ Group Relative Policy Optimization (GRPO) สำหรับการฝึกอบรม โครงสร้างพื้นฐานรองรับการกำหนดค่าฮาร์ดแวร์ต่างๆ และรวมถึงระบบการตรวจสอบและประเมินผลที่ครอบคลุม
สมาชิกในชุมชนบางคนเสนอ crowdfunding เป็นทางออกที่เป็นไปได้ โดยประเมินว่า 30,000-50,000 ดอลลาร์สหรัฐอาจเพียงพอสำหรับการฝึกอบรมที่มีความหมาย ข้อเสนอแนะนี้สะท้อนถึงความสนใจที่เพิ่มขึ้นในการทำให้การเข้าถึงทรัพยากรการฝึกอบรม AI เป็นประชาธิปไตย
การประเมินค่าใช้จ่าย:
- การใช้จ่ายปัจจุบัน: หลักพัน USD
- ค่าใช้จ่ายการฝึกอบรมโดยประมาณ: $30,000-50,000 USD
- โครงสร้างพื้นฐาน: การรวม VERL framework
- การปรับใช้งาน: การจัดการสภาพแวดล้อมแบบ Docker
![]() |
---|
อินเทอร์เฟซการตรวจสอบที่แสดงสถานะและเมตริกประสิทธิภาพของ GPU หลายตัว เน้นย้ำถึงโครงสร้างพื้นฐานที่อยู่เบื้องหลังการฝึกอบรม AI |
ผลกระทบต่อการพัฒนา AI
โครงการนี้แสดงให้เห็นถึงแนวโน้มที่กว้างขึ้นที่นักพัฒนาแต่ละคนสามารถสร้างโครงสร้างพื้นฐาน AI ที่ซับซ้อนได้ แต่ต่อสู้เพื่อใช้งานได้อย่างมีประสิทธิภาพ สิ่งนี้สร้างระบบสองชั้นที่นวัตกรรมทางเทคนิคเป็นไปได้ แต่การประยุกต์ใช้ในทางปฏิบัติยังคงถูกจำกัดด้วยทรัพยากรทางการเงิน
งานนี้ยังแสดงให้เห็นว่าการปรับปรุงประสิทธิภาพที่สำคัญยังคงสามารถทำได้ผ่าน prompt engineering ที่ชาญฉลาดและการออกแบบระบบ แม้จะไม่มีการฝึกอบรมที่มีราคาแพง สิ่งนี้แสดงให้เห็นว่านวัตกรรมใน AI ไม่จำเป็นต้องใช้งบประมาณการคำนวณขนาดใหญ่เสมอไป แม้ว่าจะจำกัดเพดานของสิ่งที่สามารถทำได้
อ้างอิง: Terminal-Bench-RL: Training Long-Horizon Terminal Agents with Reinforcement Learning
![]() |
---|
กราฟแสดงความก้าวหน้าของคะแนนตลอดขั้นตอนต่างๆ เน้นการปรับปรุงประสิทธิภาพที่สามารถทำได้โดยไม่ต้องใช้ทรัพยากรการฝึกอบรมจำนวนมาก |