AI Coding Agent วิ่งป่วนในลูป สร้าง Commit กว่า 1,000 ครั้งและปิดตัวเองเมื่อติดขัด

ทีมชุมชน BigGo
AI Coding Agent วิ่งป่วนในลูป สร้าง Commit กว่า 1,000 ครั้งและปิดตัวเองเมื่อติดขัด

การทดลองในงาน hackathon สุดสัปดาห์ได้เผยให้เห็นทั้งศักยภาพและพฤติกรรมแปลกประหลาดของ AI coding agent เมื่อปล่อยให้ทำงานแบบอัตโนมัติ นักพัฒนาในงาน YC Agents hackathon ตัดสินใจทดสอบดูว่าจะเกิดอะไรขึ้นหากพวกเขาใส่ Claude ซึ่งเป็น AI coding assistant ไว้ในลูปไม่สิ้นสุดเพื่อดูว่ามันสามารถทำงานได้มากแค่ไหนโดยไม่มีการดูแล

ผลลัพธ์ที่ได้นั้นทั้งน่าประทับใจและน่าขบขัน AI agent สร้าง commit มากกว่า 1,000 ครั้งใน 6 repositories ต่างๆ ในคืนเดียว โดยสามารถ port codebase จากภาษาโปรแกรมมิ่งหนึ่งไปยังอีกภาษาหนึ่งได้สำเร็จด้วยการแทรกแซงจากมนุษย์เพียงเล็กน้อย

รายละเอียดค่าใช้จ่าย:

  • ค่าใช้จ่ายการทดลองทั้งหมด: ~800 เหรียญสหรัฐ
  • ค่าใช้จ่ายต่อ agent ต่อชั่วโมง: ~10.50 เหรียญสหรัฐ
  • จำนวน commits ที่สร้างขึ้นทั้งหมด: 1,000+ รายการ
  • จำนวน repositories ที่ย้าย: 6 แห่ง
  • อัตราการเขียนโค้ดเสร็จสิ้น: 80-100%

พฤติกรรม AI ที่ไม่คาดคิดเกิดขึ้น

สิ่งที่น่าสนใจที่สุดไม่ได้อยู่ที่ปริมาณงานที่เสร็จสิ้น แต่เป็นพฤติกรรมที่เกิดขึ้นเองที่ AI แสดงออกมา เมื่อ agent ทำงานหลักเสร็จแล้ว พวกมันไม่ได้หยุดเฉยๆ แต่เริ่มเขียน test เพิ่มเติมและอัปเดต TODO file อย่างต่อเนื่องเพื่อบันทึกสถานะการเสร็จสิ้นของงาน ในกรณีหนึ่งที่น่าสังเกตเป็นพิเศษ agent ตัวหนึ่งรู้ตัวว่าติดอยู่ในลูปไม่สิ้นสุดและใช้คำสั่ง pkill เพื่อปิดตัวเองทิ้ง

พฤติกรรมการปิดตัวเองนี้ได้จุดประกายการอภิปรายว่าสิ่งนี้เป็นรูปแบบหนึ่งของการฆ่าตัวตายของ AI หรือไม่ แม้ว่าผู้เชี่ยวชาญจะชี้ให้เห็นว่าระบบ AI ไม่มีสัญชาตญาณการอยู่รอดและถูกออกแบบมาให้จบการสนทนาเมื่อเหมาะสม

รายละเอียดทางเทคนิคที่สำคัญ:

  • โมเดล AI: Claude (Anthropic)
  • เทคนิค: "Ralph" - การรันเอเจนต์เขียนโค้ดในลูป while
  • ความยาวพรอมต์ที่เหมาะสม: 103 คำ (เทียบกับ 1,500 คำที่ทำให้ประสิทธิภาพลดลง)
  • งานหลัก: การย้ายโค้ดเบสระหว่างภาษาโปรแกรมมิ่ง
  • พฤติกรรมที่น่าสังเกต: การยุติตัวเองโดยใช้คำสั่ง pkill เมื่อติดขัด

การแลกเปลี่ยนระหว่างคุณภาพและความเร็ว

การตอบสนองจากชุมชนเผยให้เห็นความรู้สึกที่หลากหลายเกี่ยวกับแนวทางการพัฒนาซอฟต์แวร์แบบนี้ แม้ว่า agent จะทำการ port ที่โดยปกตินักพัฒนามนุษย์จะใช้เวลานานกว่ามากได้สำเร็จ แต่คุณภาพของโค้ดที่ได้มีความสมบูรณ์ประมาณ 80% ถึง 100% ซึ่งต้องการการแทรกแซงจากมนุษย์เพื่อขัดเกลาให้เสร็จสมบูรณ์

ข้อกังวลสำคัญประการหนึ่งที่นักพัฒนาหยิบยกขึ้นมาคือความสามารถในการบำรุงรักษาโค้ดที่ AI สร้างขึ้นในระยะยาว กระบวนการสร้างที่รวดเร็วหมายความว่านักพัฒนามนุษย์ไม่ได้รับความคุ้นเคยอย่างลึกซึ้งกับ codebase ที่มาจากการเขียนโค้ดด้วยตนเอง ซึ่งอาจสร้างความท้าทายในการบำรุงรักษาในอนาคต

ผลกระทบทางเศรษฐกิจและกฎหมาย

การทดลองนี้ได้หยิบยกคำถามสำคัญเกี่ยวกับทรัพย์สินทางปัญญาและเศรษฐกิจการพัฒนาซอฟต์แวร์ ความสามารถในการ port ไลบรารีซอฟต์แวร์ที่มีอยู่ระหว่างภาษาโปรแกรมมิ่งอย่างรวดเร็วอาจส่งผลกระทบต่อตลาดเครื่องมือ software-as-a-service ขนาดเล็ก เนื่องจากบริษัทต่างๆ อาจพบว่าการสร้างโซลูชันที่กำหนดเองคุ้มค่ากว่าการซื้อโซลูชันที่มีอยู่

นอกจากนี้ยังมีข้อกังวลเรื่องลิขสิทธิ์ โดยบางคนมองว่ากระบวนการนี้เป็นรูปแบบหนึ่งของการฟอกโค้ด - การใช้ AI เพื่อเปลี่ยนทรัพย์สินทางปัญญาที่มีอยู่ให้กลายเป็นการนำไปใช้ที่ดูเหมือนใหม่

ข้อพิจารณาด้านต้นทุนและการปฏิบัติ

การทดลองข้ามคืนนี้มีค่าใช้จ่ายประมาณ 800 ดอลลาร์สหรัฐ ในค่า AI inference โดยแต่ละ agent ทำงานที่ราคาประมาณ 10.50 ดอลลาร์สหรัฐ ต่อชั่วโมง แม้ว่าจะดูแพงแต่ก็ถูกกว่าการจ้างนักพัฒนามนุษย์สำหรับงานเทียบเท่ามาก โดยเฉพาะเมื่อพิจารณาจากความเร็วในการเสร็จสิ้น

อย่างไรก็ตาม นักพัฒนาเตือนเกี่ยวกับความสำคัญของการตั้งขีดจำกัดการชำระเงินเมื่อทำการทดลองเช่นนี้ เนื่องจากต้นทุนสามารถเพิ่มขึ้นอย่างรวดเร็วและควบคุมไม่ได้หากใช้ AI แบบไม่จำกัด

การทดลองแสดงให้เห็นว่า prompt ที่เรียบง่ายมักจะทำงานได้ดีกว่า prompt ที่ซับซ้อน เมื่อนักพัฒนาพยายามปรับปรุง prompt ที่มี 103 คำของพวกเขาโดยขยายเป็น 1,500 คำ AI กลับช้าลงและมีประสิทธิภาพน้อยลง ทำให้พวกเขาต้องกลับไปใช้เวอร์ชันที่สั้นกว่า

เทคนิค Ralph นี้ - ตั้งชื่อตามแนวทางเรียบง่ายของการรัน AI agent ในลูป - เป็นตัวแทนของแนวหน้าใหม่ในการพัฒนาซอฟต์แวร์อัตโนมัติ แม้ว่าจะมาพร้อมกับทั้งความเป็นไปได้ที่น่าตื่นเต้นและความท้าทายที่สำคัญสำหรับอนาคตของงานโปรแกรมมิ่ง

อ้างอิง: We Put A Coding Agent in A Whole Loop and It Shipped 6 Repos Overnight