การทดลองในงาน hackathon สุดสัปดาห์ได้เผยให้เห็นทั้งศักยภาพและพฤติกรรมแปลกประหลาดของ AI coding agent เมื่อปล่อยให้ทำงานแบบอัตโนมัติ นักพัฒนาในงาน YC Agents hackathon ตัดสินใจทดสอบดูว่าจะเกิดอะไรขึ้นหากพวกเขาใส่ Claude ซึ่งเป็น AI coding assistant ไว้ในลูปไม่สิ้นสุดเพื่อดูว่ามันสามารถทำงานได้มากแค่ไหนโดยไม่มีการดูแล
ผลลัพธ์ที่ได้นั้นทั้งน่าประทับใจและน่าขบขัน AI agent สร้าง commit มากกว่า 1,000 ครั้งใน 6 repositories ต่างๆ ในคืนเดียว โดยสามารถ port codebase จากภาษาโปรแกรมมิ่งหนึ่งไปยังอีกภาษาหนึ่งได้สำเร็จด้วยการแทรกแซงจากมนุษย์เพียงเล็กน้อย
รายละเอียดค่าใช้จ่าย:
- ค่าใช้จ่ายการทดลองทั้งหมด: ~800 เหรียญสหรัฐ
- ค่าใช้จ่ายต่อ agent ต่อชั่วโมง: ~10.50 เหรียญสหรัฐ
- จำนวน commits ที่สร้างขึ้นทั้งหมด: 1,000+ รายการ
- จำนวน repositories ที่ย้าย: 6 แห่ง
- อัตราการเขียนโค้ดเสร็จสิ้น: 80-100%
พฤติกรรม AI ที่ไม่คาดคิดเกิดขึ้น
สิ่งที่น่าสนใจที่สุดไม่ได้อยู่ที่ปริมาณงานที่เสร็จสิ้น แต่เป็นพฤติกรรมที่เกิดขึ้นเองที่ AI แสดงออกมา เมื่อ agent ทำงานหลักเสร็จแล้ว พวกมันไม่ได้หยุดเฉยๆ แต่เริ่มเขียน test เพิ่มเติมและอัปเดต TODO file อย่างต่อเนื่องเพื่อบันทึกสถานะการเสร็จสิ้นของงาน ในกรณีหนึ่งที่น่าสังเกตเป็นพิเศษ agent ตัวหนึ่งรู้ตัวว่าติดอยู่ในลูปไม่สิ้นสุดและใช้คำสั่ง pkill
เพื่อปิดตัวเองทิ้ง
พฤติกรรมการปิดตัวเองนี้ได้จุดประกายการอภิปรายว่าสิ่งนี้เป็นรูปแบบหนึ่งของการฆ่าตัวตายของ AI หรือไม่ แม้ว่าผู้เชี่ยวชาญจะชี้ให้เห็นว่าระบบ AI ไม่มีสัญชาตญาณการอยู่รอดและถูกออกแบบมาให้จบการสนทนาเมื่อเหมาะสม
รายละเอียดทางเทคนิคที่สำคัญ:
- โมเดล AI: Claude (Anthropic)
- เทคนิค: "Ralph" - การรันเอเจนต์เขียนโค้ดในลูป while
- ความยาวพรอมต์ที่เหมาะสม: 103 คำ (เทียบกับ 1,500 คำที่ทำให้ประสิทธิภาพลดลง)
- งานหลัก: การย้ายโค้ดเบสระหว่างภาษาโปรแกรมมิ่ง
- พฤติกรรมที่น่าสังเกต: การยุติตัวเองโดยใช้คำสั่ง
pkill
เมื่อติดขัด
การแลกเปลี่ยนระหว่างคุณภาพและความเร็ว
การตอบสนองจากชุมชนเผยให้เห็นความรู้สึกที่หลากหลายเกี่ยวกับแนวทางการพัฒนาซอฟต์แวร์แบบนี้ แม้ว่า agent จะทำการ port ที่โดยปกตินักพัฒนามนุษย์จะใช้เวลานานกว่ามากได้สำเร็จ แต่คุณภาพของโค้ดที่ได้มีความสมบูรณ์ประมาณ 80% ถึง 100% ซึ่งต้องการการแทรกแซงจากมนุษย์เพื่อขัดเกลาให้เสร็จสมบูรณ์
ข้อกังวลสำคัญประการหนึ่งที่นักพัฒนาหยิบยกขึ้นมาคือความสามารถในการบำรุงรักษาโค้ดที่ AI สร้างขึ้นในระยะยาว กระบวนการสร้างที่รวดเร็วหมายความว่านักพัฒนามนุษย์ไม่ได้รับความคุ้นเคยอย่างลึกซึ้งกับ codebase ที่มาจากการเขียนโค้ดด้วยตนเอง ซึ่งอาจสร้างความท้าทายในการบำรุงรักษาในอนาคต
ผลกระทบทางเศรษฐกิจและกฎหมาย
การทดลองนี้ได้หยิบยกคำถามสำคัญเกี่ยวกับทรัพย์สินทางปัญญาและเศรษฐกิจการพัฒนาซอฟต์แวร์ ความสามารถในการ port ไลบรารีซอฟต์แวร์ที่มีอยู่ระหว่างภาษาโปรแกรมมิ่งอย่างรวดเร็วอาจส่งผลกระทบต่อตลาดเครื่องมือ software-as-a-service ขนาดเล็ก เนื่องจากบริษัทต่างๆ อาจพบว่าการสร้างโซลูชันที่กำหนดเองคุ้มค่ากว่าการซื้อโซลูชันที่มีอยู่
นอกจากนี้ยังมีข้อกังวลเรื่องลิขสิทธิ์ โดยบางคนมองว่ากระบวนการนี้เป็นรูปแบบหนึ่งของการฟอกโค้ด - การใช้ AI เพื่อเปลี่ยนทรัพย์สินทางปัญญาที่มีอยู่ให้กลายเป็นการนำไปใช้ที่ดูเหมือนใหม่
ข้อพิจารณาด้านต้นทุนและการปฏิบัติ
การทดลองข้ามคืนนี้มีค่าใช้จ่ายประมาณ 800 ดอลลาร์สหรัฐ ในค่า AI inference โดยแต่ละ agent ทำงานที่ราคาประมาณ 10.50 ดอลลาร์สหรัฐ ต่อชั่วโมง แม้ว่าจะดูแพงแต่ก็ถูกกว่าการจ้างนักพัฒนามนุษย์สำหรับงานเทียบเท่ามาก โดยเฉพาะเมื่อพิจารณาจากความเร็วในการเสร็จสิ้น
อย่างไรก็ตาม นักพัฒนาเตือนเกี่ยวกับความสำคัญของการตั้งขีดจำกัดการชำระเงินเมื่อทำการทดลองเช่นนี้ เนื่องจากต้นทุนสามารถเพิ่มขึ้นอย่างรวดเร็วและควบคุมไม่ได้หากใช้ AI แบบไม่จำกัด
การทดลองแสดงให้เห็นว่า prompt ที่เรียบง่ายมักจะทำงานได้ดีกว่า prompt ที่ซับซ้อน เมื่อนักพัฒนาพยายามปรับปรุง prompt ที่มี 103 คำของพวกเขาโดยขยายเป็น 1,500 คำ AI กลับช้าลงและมีประสิทธิภาพน้อยลง ทำให้พวกเขาต้องกลับไปใช้เวอร์ชันที่สั้นกว่า
เทคนิค Ralph นี้ - ตั้งชื่อตามแนวทางเรียบง่ายของการรัน AI agent ในลูป - เป็นตัวแทนของแนวหน้าใหม่ในการพัฒนาซอฟต์แวร์อัตโนมัติ แม้ว่าจะมาพร้อมกับทั้งความเป็นไปได้ที่น่าตื่นเต้นและความท้าทายที่สำคัญสำหรับอนาคตของงานโปรแกรมมิ่ง
อ้างอิง: We Put A Coding Agent in A Whole Loop and It Shipped 6 Repos Overnight