AI Agent ติดขัด: ทำไมพวกมันถึงล้มเหลวบ่อยขึ้นเมื่อทำงานยาวนาน

ทีมชุมชน BigGo
AI Agent ติดขัด: ทำไมพวกมันถึงล้มเหลวบ่อยขึ้นเมื่อทำงานยาวนาน

การศึกษาใหม่เผยให้เห็นรูปแบบที่น่ากังวลในประสิทธิภาพของ AI: ยิ่งงานยาวนาน AI agent ก็ยิ่งมีแนวโน้มที่จะล้มเหลวโดยสิ้นเชิง การค้นพบนี้ได้จุดประกายการอภิปรายอย่างเข้มข้นในหมู่นักพัฒนาที่รู้จักรูปแบบนี้จากประสบการณ์ที่น่าหงุดหงิดของตัวเองกับ AI coding assistant

การวิจัยแสดงให้เห็นว่า AI agent ปฏิบัติตามสิ่งที่นักวิทยาศาสตร์เรียกว่า constant hazard rate - หมายความว่าพวกมันมีโอกาสคงที่ที่จะล้มเหลวในแต่ละขั้นตอนของงาน สิ่งนี้สร้างการลดลงแบบเลขชี้กำลังในอัตราความสำเร็จเมื่องานยาวขึ้น คล้ายกับวิธีที่วัสดุกัมมันตรังสีสลายตัวตามเวลา AI agent แต่ละตัวสามารถจำแนกได้ด้วย half-life ของตัวเอง - ความยาวของงานที่มันประสบความสำเร็จเพียง 50% ของเวลา

สไลด์การนำเสนอนี้สรุปการวิจัยเกี่ยวกับอัตราความสำเร็จที่ลดลงของ AI agents โดยเฉพาะอย่างยิ่งในความสัมพันธ์กับความยาวของงาน
สไลด์การนำเสนอนี้สรุปการวิจัยเกี่ยวกับอัตราความสำเร็จที่ลดลงของ AI agents โดยเฉพาะอย่างยิ่งในความสัมพันธ์กับความยาวของงาน

ปัญหา Context Poisoning

นักพัฒนาในชุมชนได้ระบุเหตุผลสำคัญเบื้องหลังความล้มเหลวเหล่านี้: context poisoning เมื่อ AI agent ทำงานยาวนาน ประวัติการสนทนาของพวกมันจะเต็มไปด้วยความพยายามที่ล้มเหลว คำแนะนำที่ผิด และทางตัน context ที่เสียหายนี้ทำให้ AI มีแนวโน้มที่จะตัดสินใจผิดพลาดมากขึ้น

พวกมันทำให้ context ของตัวเองเป็นพิษ อาจเรียกได้ว่า context rot ที่เมื่อ context เติบโตและโดยเฉพาะอย่างยิ่งถ้ามันเติบโตด้วยสิ่งรบกวนและทางตันมากมาย คุณภาพของผลลัพธ์จะลดลงอย่างรวดเร็ว

นักพัฒนาหลายคนรายงานว่า AI agent เริ่มทำการเลือกที่แปลกประหลาดเมื่อติดขัด แทนที่จะแก้ไข build error ง่ายๆ AI อาจตัดสินใจเปลี่ยนไปใช้ software library ที่แตกต่างโดยสิ้นเชิง เมื่อนั่นล้มเหลว มันอาจเปลี่ยนกลับไปใช้ library เดิม สร้างลูปแห่งความสับสนที่ไม่มีที่สิ้นสุด

แผนภาพนี้วิเคราะห์ประสิทธิภาพของ AI ในงานที่หลากหลาย สะท้อนปัญหาการปนเปื้อนบริบทที่ตัวแทน AI เผชิญในงานที่ใช้เวลานาน
แผนภาพนี้วิเคราะห์ประสิทธิภาพของ AI ในงานที่หลากหลาย สะท้อนปัญหาการปนเปื้อนบริบทที่ตัวแทน AI เผชิญในงานที่ใช้เวลานาน

ผลกระทบการลดลงแบบเลขชี้กำลัง

แบบจำลองทางคณิตศาสตร์เบื้องหลังปรากฏการณ์นี้ง่ายอย่างน่าประหลาด หาก AI มีอัตราความสำเร็จ 50% ในงานหนึ่งชั่วโมง มันจะลดลงเหลือเพียง 25% สำหรับงานสองชั่วโมงและ 12.5% สำหรับงานสี่ชั่วโมง สำหรับงานที่ต้องการความน่าเชื่อถือ 99% ขอบเขตเวลาจะหดตัวลงเหลือเพียง 1/70 ของเกณฑ์อัตราความสำเร็จ 50%

สิ่งนี้อธิบายว่าทำไม AI coding assistant ทำงานได้ดีสำหรับปัญหาเล็กๆ ที่แยกออกมา แต่ดิ้นรนกับโครงการที่ซับซ้อนและมีหลายขั้นตอน แต่ละขั้นตอนเพิ่มเติมในงานจะเพิ่มโอกาสของความล้มเหลว สร้างหน้าผาที่สูงชันในประสิทธิภาพมากกว่าการลดลงแบบค่อยเป็นค่อยไป

รูปแบบการลดลงของอัตราความสำเร็จ:

  • อัตราความสำเร็จพื้นฐาน 50%
  • อัตราความสำเร็จ 25% เมื่องานยาวเป็นสองเท่า
  • อัตราความสำเร็จ 12.5% เมื่องานยาวเป็นสี่เท่า
  • ความน่าเชื่อถือ 99% ต้องการความยาวงานเพียง 1/70 ของอัตราความสำเร็จ 50%

วิธีแก้ไขของนักพัฒนา

ชุมชนได้พัฒนากลยุทธ์หลายอย่างเพื่อต่อสู้กับข้อจำกัดนี้ นักพัฒนาบางคนเริ่มการสนทนาใหม่เป็นประจำ คัดลอกเฉพาะ context ที่จำเป็นจากเซสชันก่อนหน้า คนอื่นๆ ใช้เครื่องมือเฉพาะทางที่สามารถลบหรือบีบอัดประวัติการสนทนาเพื่อลบเนื้อหาที่เป็นพิษ

วิธีการที่ประสบความสำเร็จมากที่สุดดูเหมือนจะเป็นการปฏิบัติต่อการโต้ตอบกับ AI เหมือนเซสชัน pair programming - มีส่วนร่วมอย่างแข็งขันและแทรกแซงเมื่อ AI เริ่มไปในทิศทางที่ไม่มีประสิทธิผล นักพัฒนารายงานว่าการปล่อยให้ AI ทำงานนานกว่าไม่กี่นาทีโดยไม่มีคำแนะนำไม่ค่อยให้ผลลัพธ์ที่ดี

ตัวอย่างประสิทธิภาพของ Claude 3.5 Sonnet :

  • อัตราความสำเร็จ 50%: งานที่ใช้เวลา 59 นาที
  • อัตราความสำเร็จ 80%: งานที่ใช้เวลา 15 นาที
  • ระยะเวลาของงานสำหรับความสำเร็จ 80% = 1/4 ของระยะเวลางานที่มีความสำเร็จ 50%
กราฟนี้เปรียบเทียบอัตราความสำเร็จของ AI agent ต่างๆ ในงานที่มีความยาวแตกต่างกัน ช่วยเสริมความเข้าใจเกี่ยวกับกลยุทธ์ของนักพัฒนาในการปรับปรุงผลลัพธ์ของ AI
กราฟนี้เปรียบเทียบอัตราความสำเร็จของ AI agent ต่างๆ ในงานที่มีความยาวแตกต่างกัน ช่วยเสริมความเข้าใจเกี่ยวกับกลยุทธ์ของนักพัฒนาในการปรับปรุงผลลัพธ์ของ AI

ผลกระทบต่อการพัฒนา AI

การวิจัยนี้แสดงให้เห็นว่า AI agent ปัจจุบันขาดกลไกการกู้คืนจากข้อผิดพลาดที่มีประสิทธิภาพ ไม่เหมือนมนุษย์ที่สามารถถอยหลังและประเมินใหม่เมื่อติดขัด AI agent มีแนวโน้มที่จะทำให้ข้อผิดพลาดของพวกมันรุนแรงขึ้น พวกมันดิ้นรนที่จะรู้จักเมื่อพวกมันอยู่ในสถานะที่ล้มเหลวและต้องการเปลี่ยนวิธีการ

การค้นพบนี้ยังเน้นย้ำถึงความท้าทายพื้นฐานในการพัฒนา AI: ช่องว่างระหว่างประสิทธิภาพที่น่าประทับใจในงานสั้นและการทำงานที่เชื่อถือได้ของโครงการในโลกแห่งความเป็นจริง ในขณะที่ความสามารถของ AI ยังคงพัฒนาอย่างรวดเร็ว โดยอัตราความสำเร็จเพิ่มขึ้นเป็นสองเท่าทุกเจ็ดเดือนตามการศึกษา ลักษณะเลขชี้กำลังของการลดลงนี้หมายความว่าการบรรลุความน่าเชื่อถือสูงในงานยาวยังคงเป็นอุปสรรคที่สำคัญ

การเข้าใจความสัมพันธ์ทางคณิตศาสตร์นี้ช่วยอธิบายว่าทำไม AI agent จึงดูทั้งมีความสามารถอย่างน่าทึ่งและไม่น่าเชื่อถืออย่างน่าหงุดหงิดในเวลาเดียวกัน มันไม่ใช่แค่เรื่องของการทำให้ AI ฉลาดขึ้น - แต่เป็นเรื่องของการเปลี่ยนแปลงพื้นฐานในวิธีที่พวกมันจัดการกับความล้มเหลวและรักษาสมาธิในช่วงเวลาที่ยาวนาน

อ้างอิง: Is there a Half-Life for the Success Rates of AI Agents?