นักพัฒนาสร้างเฟรมเวิร์กฝึกอบรม Terminal Agent แต่ไม่มีเงินใช้งาน

ทีมชุมชน BigGo

นักพัฒนาสร้างเฟรมเวิร์กฝึกอบรม Terminal Agent แต่ไม่มีเงินใช้งาน

นักพัฒนาคนหนึ่งได้สร้างโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรงที่น่าประทับใจชื่อ Terminal-Bench-RL สำหรับฝึกอบรม AI agents ให้ทำงาน terminal ต่างๆ แต่โครงการนี้เผยให้เห็นถึงความท้าทายที่เพิ่มขึ้นในการพัฒนา AI นั่นคือต้นทุนที่สูงเกินไปในการฝึกอบรมโมเดลที่มีความสามารถในการแข่งขัน

โครงการนี้แสดงให้เห็นถึงความสำเร็จทางเทคนิคในการสร้างโครงสร้างพื้นฐานการฝึกอบรมที่สามารถขยายขนาดได้และจัดการกับมากกว่า 1 ล้านขั้นตอนต่อวินาทีในหลาย compute nodes อย่างไรก็ตาม การอพยพในชุมชนเผยให้เห็นความแตกต่างที่สำคัญซึ่งทำให้ผู้สังเกตการณ์หลายคนเข้าใจผิดในตอนแรก

ข้อมูลจำเพาะของโครงสร้างพื้นฐานการฝึกอบรม:

ความสามารถในการขยายขนาด: >1 ล้านขั้นตอน/วินาที ผ่าน 8+ โหนด
อัลกอริทึม: Group Relative Policy Optimization ( GRPO )
การรองรับฮาร์ดแวร์: การกำหนดค่า 4-32 GPU
ความยาวลำดับ: สูงสุด 12,710 โทเค็น
ระยะเวลาการฝึกอบรม: 15 นาทีต่อการผ่านชุดข้อมูลหนึ่งครั้ง
หน่วยความจำ: เทนเซอร์ 1.5GB ต่ออินสแตนซ์

ความสำเร็จที่แท้จริงเทียบกับการอ้างสิทธิ์ทางการตลาด

สมาชิกในชุมชนได้ชี้แจงอย่างรวดเร็วว่าสิ่งที่สำเร็จจริงๆ เทียบกับสิ่งที่โครงการดูเหมือนจะอ้างสิทธิ์ นักพัฒนาได้สร้างโครงสร้างพื้นฐานการฝึกอบรมที่ซับซ้อนแต่ไม่ได้ใช้งานจริงในการฝึกอบรมโมเดลเนื่องจากข้อจำกัดด้านต้นทุน แต่พวกเขาได้คะแนน 13.75% ใน Terminal-Bench โดยใช้ prompt engineering และ custom scaffolding กับโมเดล Qwen3-32B โดยไม่มีการฝึกอบรมเลย

ความแตกต่างนี้มีความสำคัญเพราะแสดงให้เห็นถึงความแตกต่างระหว่างการมีความสามารถทางเทคนิคในการสร้างระบบฝึกอบรมกับการมีทรัพยากรในการใช้งานจริง โครงสร้างพื้นฐานนี้เองแสดงถึงงานวิศวกรรมที่สำคัญ ครอบคลุมหลายชุดทักษะตั้งแต่ distributed computing ไปจนถึง reinforcement learning

ผลลัพธ์ประสิทธิภาพ:

คะแนน Terminal-Bench: 13.75% (ใช้เฉพาะ prompt engineering)
โมเดลพื้นฐาน: Qwen3-32B
วิธีการ: Custom scaffolding และ system prompts
ต้นทุนการฝึก: หลายพันดอลลาร์สหรัฐฯ ในระดับต่ำ (เฉพาะโครงสร้างพื้นฐานเท่านั้น)
การฝึกจริง: ไม่ได้ทำให้เสร็จสิ้นเนื่องจากข้อจำกัดด้านต้นทุน

ปัญหาความยากจนด้าน GPU

โครงการนี้เผยให้เห็นสิ่งที่บางคนในชุมชนเรียกว่าความยากจนด้าน GPU ซึ่งเป็นความจริงที่ว่านักพัฒนาแต่ละคนและทีมเล็กๆ มักขาดทรัพยากรด้านการคำนวณที่จะแข่งขันกับ AI labs ขนาดใหญ่ แม้ว่านักพัฒนาจะใช้เงินไปแล้วหลายพันดอลลาร์สหรัฐในโครงการนี้ แต่ก็ยังไม่เพียงพอที่จะดำเนินการฝึกอบรมที่มีความหมาย

ที่คุณใช้เงินไปในระดับหลายพัน (จากที่เห็น) และสามารถเอาชนะ GPT4.1 ได้นั้นเป็นข้อมูลเชิงลึกที่น่าทึ่งเกี่ยวกับคูคันดิงของ AI labs ขนาดใหญ่

ความคิดเห็นนี้เน้นย้ำว่าอุปสรรคด้านต้นทุนสร้างคูคันดิงที่สำคัญรอบๆ บริษัท AI ขนาดใหญ่ ซึ่งอาจจำกัดนวัตกรรมให้อยู่เฉพาะองค์กรที่มีเงินทุนเพียงพอ


เมตริกประสิทธิภาพสำหรับ GPU NVIDIA H100 ที่แสดงให้เห็นถึงความท้าทายของความพร้อมใช้งานทรัพยากรในการฝึก AI

โครงสร้างพื้นฐานทางเทคนิคและความสนใจของชุมชน

แม้จะมีข้อจำกัดด้านต้นทุน แต่งานทางเทคนิคก็ได้รับความสนใจอย่างแท้จริง ระบบใช้ VERL ( Volcengine 's reinforcement learning framework) เป็นพื้นฐานและใช้ Group Relative Policy Optimization (GRPO) สำหรับการฝึกอบรม โครงสร้างพื้นฐานรองรับการกำหนดค่าฮาร์ดแวร์ต่างๆ และรวมถึงระบบการตรวจสอบและประเมินผลที่ครอบคลุม

สมาชิกในชุมชนบางคนเสนอ crowdfunding เป็นทางออกที่เป็นไปได้ โดยประเมินว่า 30,000-50,000 ดอลลาร์สหรัฐอาจเพียงพอสำหรับการฝึกอบรมที่มีความหมาย ข้อเสนอแนะนี้สะท้อนถึงความสนใจที่เพิ่มขึ้นในการทำให้การเข้าถึงทรัพยากรการฝึกอบรม AI เป็นประชาธิปไตย

การประเมินค่าใช้จ่าย:

การใช้จ่ายปัจจุบัน: หลักพัน USD
ค่าใช้จ่ายการฝึกอบรมโดยประมาณ: $30,000-50,000 USD
โครงสร้างพื้นฐาน: การรวม VERL framework
การปรับใช้งาน: การจัดการสภาพแวดล้อมแบบ Docker


อินเทอร์เฟซการตรวจสอบที่แสดงสถานะและเมตริกประสิทธิภาพของ GPU หลายตัว เน้นย้ำถึงโครงสร้างพื้นฐานที่อยู่เบื้องหลังการฝึกอบรม AI

ผลกระทบต่อการพัฒนา AI

โครงการนี้แสดงให้เห็นถึงแนวโน้มที่กว้างขึ้นที่นักพัฒนาแต่ละคนสามารถสร้างโครงสร้างพื้นฐาน AI ที่ซับซ้อนได้ แต่ต่อสู้เพื่อใช้งานได้อย่างมีประสิทธิภาพ สิ่งนี้สร้างระบบสองชั้นที่นวัตกรรมทางเทคนิคเป็นไปได้ แต่การประยุกต์ใช้ในทางปฏิบัติยังคงถูกจำกัดด้วยทรัพยากรทางการเงิน

งานนี้ยังแสดงให้เห็นว่าการปรับปรุงประสิทธิภาพที่สำคัญยังคงสามารถทำได้ผ่าน prompt engineering ที่ชาญฉลาดและการออกแบบระบบ แม้จะไม่มีการฝึกอบรมที่มีราคาแพง สิ่งนี้แสดงให้เห็นว่านวัตกรรมใน AI ไม่จำเป็นต้องใช้งบประมาณการคำนวณขนาดใหญ่เสมอไป แม้ว่าจะจำกัดเพดานของสิ่งที่สามารถทำได้

อ้างอิง: Terminal-Bench-RL: Training Long-Horizon Terminal Agents with Reinforcement Learning


กราฟแสดงความก้าวหน้าของคะแนนตลอดขั้นตอนต่างๆ เน้นการปรับปรุงประสิทธิภาพที่สามารถทำได้โดยไม่ต้องใช้ทรัพยากรการฝึกอบรมจำนวนมาก

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌