การศึกษาใหม่เผยให้เห็นรูปแบบที่น่ากังวลในประสิทธิภาพของ AI: ยิ่งงานยาวนาน AI agent ก็ยิ่งมีแนวโน้มที่จะล้มเหลวโดยสิ้นเชิง การค้นพบนี้ได้จุดประกายการอภิปรายอย่างเข้มข้นในหมู่นักพัฒนาที่รู้จักรูปแบบนี้จากประสบการณ์ที่น่าหงุดหงิดของตัวเองกับ AI coding assistant
การวิจัยแสดงให้เห็นว่า AI agent ปฏิบัติตามสิ่งที่นักวิทยาศาสตร์เรียกว่า constant hazard rate - หมายความว่าพวกมันมีโอกาสคงที่ที่จะล้มเหลวในแต่ละขั้นตอนของงาน สิ่งนี้สร้างการลดลงแบบเลขชี้กำลังในอัตราความสำเร็จเมื่องานยาวขึ้น คล้ายกับวิธีที่วัสดุกัมมันตรังสีสลายตัวตามเวลา AI agent แต่ละตัวสามารถจำแนกได้ด้วย half-life ของตัวเอง - ความยาวของงานที่มันประสบความสำเร็จเพียง 50% ของเวลา
![]() |
---|
สไลด์การนำเสนอนี้สรุปการวิจัยเกี่ยวกับอัตราความสำเร็จที่ลดลงของ AI agents โดยเฉพาะอย่างยิ่งในความสัมพันธ์กับความยาวของงาน |
ปัญหา Context Poisoning
นักพัฒนาในชุมชนได้ระบุเหตุผลสำคัญเบื้องหลังความล้มเหลวเหล่านี้: context poisoning เมื่อ AI agent ทำงานยาวนาน ประวัติการสนทนาของพวกมันจะเต็มไปด้วยความพยายามที่ล้มเหลว คำแนะนำที่ผิด และทางตัน context ที่เสียหายนี้ทำให้ AI มีแนวโน้มที่จะตัดสินใจผิดพลาดมากขึ้น
พวกมันทำให้ context ของตัวเองเป็นพิษ อาจเรียกได้ว่า context rot ที่เมื่อ context เติบโตและโดยเฉพาะอย่างยิ่งถ้ามันเติบโตด้วยสิ่งรบกวนและทางตันมากมาย คุณภาพของผลลัพธ์จะลดลงอย่างรวดเร็ว
นักพัฒนาหลายคนรายงานว่า AI agent เริ่มทำการเลือกที่แปลกประหลาดเมื่อติดขัด แทนที่จะแก้ไข build error ง่ายๆ AI อาจตัดสินใจเปลี่ยนไปใช้ software library ที่แตกต่างโดยสิ้นเชิง เมื่อนั่นล้มเหลว มันอาจเปลี่ยนกลับไปใช้ library เดิม สร้างลูปแห่งความสับสนที่ไม่มีที่สิ้นสุด
![]() |
---|
แผนภาพนี้วิเคราะห์ประสิทธิภาพของ AI ในงานที่หลากหลาย สะท้อนปัญหาการปนเปื้อนบริบทที่ตัวแทน AI เผชิญในงานที่ใช้เวลานาน |
ผลกระทบการลดลงแบบเลขชี้กำลัง
แบบจำลองทางคณิตศาสตร์เบื้องหลังปรากฏการณ์นี้ง่ายอย่างน่าประหลาด หาก AI มีอัตราความสำเร็จ 50% ในงานหนึ่งชั่วโมง มันจะลดลงเหลือเพียง 25% สำหรับงานสองชั่วโมงและ 12.5% สำหรับงานสี่ชั่วโมง สำหรับงานที่ต้องการความน่าเชื่อถือ 99% ขอบเขตเวลาจะหดตัวลงเหลือเพียง 1/70 ของเกณฑ์อัตราความสำเร็จ 50%
สิ่งนี้อธิบายว่าทำไม AI coding assistant ทำงานได้ดีสำหรับปัญหาเล็กๆ ที่แยกออกมา แต่ดิ้นรนกับโครงการที่ซับซ้อนและมีหลายขั้นตอน แต่ละขั้นตอนเพิ่มเติมในงานจะเพิ่มโอกาสของความล้มเหลว สร้างหน้าผาที่สูงชันในประสิทธิภาพมากกว่าการลดลงแบบค่อยเป็นค่อยไป
รูปแบบการลดลงของอัตราความสำเร็จ:
- อัตราความสำเร็จพื้นฐาน 50%
- อัตราความสำเร็จ 25% เมื่องานยาวเป็นสองเท่า
- อัตราความสำเร็จ 12.5% เมื่องานยาวเป็นสี่เท่า
- ความน่าเชื่อถือ 99% ต้องการความยาวงานเพียง 1/70 ของอัตราความสำเร็จ 50%
วิธีแก้ไขของนักพัฒนา
ชุมชนได้พัฒนากลยุทธ์หลายอย่างเพื่อต่อสู้กับข้อจำกัดนี้ นักพัฒนาบางคนเริ่มการสนทนาใหม่เป็นประจำ คัดลอกเฉพาะ context ที่จำเป็นจากเซสชันก่อนหน้า คนอื่นๆ ใช้เครื่องมือเฉพาะทางที่สามารถลบหรือบีบอัดประวัติการสนทนาเพื่อลบเนื้อหาที่เป็นพิษ
วิธีการที่ประสบความสำเร็จมากที่สุดดูเหมือนจะเป็นการปฏิบัติต่อการโต้ตอบกับ AI เหมือนเซสชัน pair programming - มีส่วนร่วมอย่างแข็งขันและแทรกแซงเมื่อ AI เริ่มไปในทิศทางที่ไม่มีประสิทธิผล นักพัฒนารายงานว่าการปล่อยให้ AI ทำงานนานกว่าไม่กี่นาทีโดยไม่มีคำแนะนำไม่ค่อยให้ผลลัพธ์ที่ดี
ตัวอย่างประสิทธิภาพของ Claude 3.5 Sonnet :
- อัตราความสำเร็จ 50%: งานที่ใช้เวลา 59 นาที
- อัตราความสำเร็จ 80%: งานที่ใช้เวลา 15 นาที
- ระยะเวลาของงานสำหรับความสำเร็จ 80% = 1/4 ของระยะเวลางานที่มีความสำเร็จ 50%
![]() |
---|
กราฟนี้เปรียบเทียบอัตราความสำเร็จของ AI agent ต่างๆ ในงานที่มีความยาวแตกต่างกัน ช่วยเสริมความเข้าใจเกี่ยวกับกลยุทธ์ของนักพัฒนาในการปรับปรุงผลลัพธ์ของ AI |
ผลกระทบต่อการพัฒนา AI
การวิจัยนี้แสดงให้เห็นว่า AI agent ปัจจุบันขาดกลไกการกู้คืนจากข้อผิดพลาดที่มีประสิทธิภาพ ไม่เหมือนมนุษย์ที่สามารถถอยหลังและประเมินใหม่เมื่อติดขัด AI agent มีแนวโน้มที่จะทำให้ข้อผิดพลาดของพวกมันรุนแรงขึ้น พวกมันดิ้นรนที่จะรู้จักเมื่อพวกมันอยู่ในสถานะที่ล้มเหลวและต้องการเปลี่ยนวิธีการ
การค้นพบนี้ยังเน้นย้ำถึงความท้าทายพื้นฐานในการพัฒนา AI: ช่องว่างระหว่างประสิทธิภาพที่น่าประทับใจในงานสั้นและการทำงานที่เชื่อถือได้ของโครงการในโลกแห่งความเป็นจริง ในขณะที่ความสามารถของ AI ยังคงพัฒนาอย่างรวดเร็ว โดยอัตราความสำเร็จเพิ่มขึ้นเป็นสองเท่าทุกเจ็ดเดือนตามการศึกษา ลักษณะเลขชี้กำลังของการลดลงนี้หมายความว่าการบรรลุความน่าเชื่อถือสูงในงานยาวยังคงเป็นอุปสรรคที่สำคัญ
การเข้าใจความสัมพันธ์ทางคณิตศาสตร์นี้ช่วยอธิบายว่าทำไม AI agent จึงดูทั้งมีความสามารถอย่างน่าทึ่งและไม่น่าเชื่อถืออย่างน่าหงุดหงิดในเวลาเดียวกัน มันไม่ใช่แค่เรื่องของการทำให้ AI ฉลาดขึ้น - แต่เป็นเรื่องของการเปลี่ยนแปลงพื้นฐานในวิธีที่พวกมันจัดการกับความล้มเหลวและรักษาสมาธิในช่วงเวลาที่ยาวนาน
อ้างอิง: Is there a Half-Life for the Success Rates of AI Agents?