แม้ว่าโมเดล AI จะยังคงทำผลงานได้เหนือกว่ามนุษย์ในการแข่งขันเขียนโปรแกรม โดย GPT-5 ของ OpenAI เพิ่งทำคะแนนเต็มในการแข่งขัน ICPC 2025 แต่เอเจนต์เขียนโค้ดยังห่างไกลจากการมาแทนที่นักพัฒนามนุษย์ในสถานการณ์จริง ช่องว่างนี้ไม่ใช่เรื่องความฉลาดดิบอีกต่อไป แต่เป็นเรื่องการจัดการบริบทและความสามารถในการรักษาสมาธิระหว่างการดำเนินงานที่ซับซ้อนและมีหลายขั้นตอน
ปัญหาการปนเปื้อนบริบท
หนึ่งในประเด็นสำคัญที่สุดที่รบกวนเอเจนต์เขียนโค้ดในปัจจุบันคือการไม่สามารถทิ้งข้อมูลที่ไม่เกี่ยวข้องได้อย่างมีประสิทธิภาพเมื่องานมีการพัฒนาไป ต่างจากมนุษย์ที่สามารถเปลี่ยนจุดสนใจและละเลยบริบทก่อนหน้าได้อย่างเป็นธรรมชาติเมื่อถูกเปลี่ยนทิศทาง โมเดล AI กลับมีปัญหากับสิ่งที่นักพัฒนาเรียกว่าการปนเปื้อนบริบท เมื่อเอเจนต์ใช้โทเคนหลายพันตัวในการสำรวจเส้นทางแก้ปัญหาที่ผิด มันจะมีความยากลำบากในการละเลยการสำรวจที่ไม่ดีนั้น แม้จะถูกเปลี่ยนทิศทางอย่างชัดเจนด้วยคำแนะนำที่ชัดเจน
นั่นเป็นเพราะตัวทำนายโทเคนถัดไปไม่สามารถ 'ลืม' บริบทได้ มันไม่ได้ทำงานแบบนั้น คุณโหลดสิ่งนั้นด้วยบริบทที่เกี่ยวข้องและอธิษฐานว่ามันจะนำทางเส้นทางการสร้างไปยังส่วนของโมเดลที่แสดงข้อมูลที่คุณต้องการ
ข้อจำกัดพื้นฐานนี้หมายความว่าเอเจนต์มักจะดำเนินต่อไปในเส้นทางที่ไม่มีประสิทธิผลแม้จะมีการแทรกแซงจากมนุษย์ ทำให้พวกมันไม่น่าเชื่อถือสำหรับงานอิสระที่ขยายออกไป
การขาดบริบททางธุรกิจสร้างจุดบอด
นอกเหนือจากบริบททางเทคนิคแล้ว เอเจนต์เขียนโค้ดยังขาดความรู้ทางธุรกิจและผลิตภัณฑ์ที่สำคัญซึ่งนักพัฒนามนุษย์ถือเป็นเรื่องธรรมดา พวกมันไม่เข้าใจว่าทำไมการตัดสินใจด้านสถาปัตยกรรมบางอย่างถึงถูกทำขึ้น ข้อกำหนดด้านกฎระเบียบใดที่กำหนดรูปแบบกฎการตรวจสอบเฉพาะ หรือลูกค้าองค์กรไหนที่ขับเคลื่อนกรณีขอบเขตเฉพาะ ความรู้เผ่าพันธุ์นี้กระจัดกระจายอยู่ทั่วเธรด Slack บันทึกการประชุม และความทรงจำของนักพัฒนา ซึ่งเป็นข้อมูลที่เกือบเป็นไปไม่ได้ที่จะให้กับระบบ AI อย่างเป็นระบบ
ความท้าทายไม่ได้อยู่แค่การเข้าถึงข้อมูลนี้ แต่การสังเคราะห์เอกสารที่ขัดแย้งกันและล้าสมัยให้เป็นความเข้าใจที่นำไปปฏิบัติได้ เอเจนต์ปัจจุบันได้รับบริบทเพียงประมาณ 20% ของสิ่งที่นักพัฒนามนุษย์มีอย่างเป็นธรรมชาติ ซึ่งจำกัดประสิทธิภาพของพวกมันในโค้ดเบสที่ใช้งานจริงอย่างรุนแรง
ข้อกำหนดบริบทสำหรับ Coding Agents ที่มีประสิทธิภาพ:
- บริบทพื้นฐาน: ไฟล์โค้ด เอกสารประกอบ สภาพแวดล้อมการทำงาน
- บริบทขั้นสูง: โครงสร้างองค์กรของ codebase รูปแบบสถาปัตยกรรม การตัดสินใจในอดีต
- บริบททางธุรกิจ: ข้อกำหนดของผลิตภัณฑ์ ข้อจำกัดด้านกฎระเบียบ กรณีพิเศษของลูกค้า
- บริบทกระบวนการ: แนวปฏิบัติในการพัฒนา ขั้นตอนการ deploy ความคาดหวังด้านการทดสอบ
ข้อจำกัดด้านขนาดยังคงมีอยู่แม้จะมีความฉลาดเพิ่มขึ้น
แม้ว่าเอเจนต์เขียนโค้ดจะเก่งในงานเล็กๆ เช่น การเติมโค้ดอัตโนมัติและการคอมมิตเดียว แต่พวกมันมีปัญหากับโค้ดเบสขนาดใหญ่และการดำเนินงานที่ขยายออกไป นักพัฒนารายงานว่าเอเจนต์หยุดทำงานกับไฟล์ C++ ขนาดใหญ่และลืมส่วนก่อนหน้าของโค้ดที่พวกมันกำลังทำงานอยู่ แม้จะมีหน้าต่างบริบทที่ขยายออกไป สถาปัตยกรรมพื้นฐานของโมเดล transformer ก็สร้างคอขวดด้านประสิทธิภาพที่กลไก sparse attention ไม่สามารถแก้ไขได้สำเร็จ
ชุมชนได้พัฒนาวิธีแก้ไขชั่วคราว เช่น การเริ่มเซสชันใหม่เพื่อหลีกเลี่ยงการปนเปื้อนบริบทและการใช้เทคนิคการลืมเชิงกลยุทธ์ แต่สิ่งเหล่านี้ยังคงเป็นการแทรกแซงด้วยตนเองมากกว่าการแก้ไขอย่างเป็นระบบ
ระดับความเป็นอิสระของ Coding Agent:
- ระดับ 1: โค้ดไม่กี่บรรทัด (autocomplete) - ทำงานได้ดี
- ระดับ 2: หนึ่ง commit - Cursor และ Claude Code มีประสิทธิภาพ
- ระดับ 3: หนึ่ง PR - Devin และ async agents จำกัดอยู่แค่งานง่าย ๆ
- ระดับ 4: ฟีเจอร์หลักหรือการปรับปรุงโครงสร้าง - เกินความสามารถของ agent ปัจจุบัน
- ระดับ 5: โค้ดเบสทั้งหมด - ใช้งานได้เฉพาะเมื่อเริ่มต้นจากศูนย์เท่านั้น
โซลูชันที่เกิดขึ้นใหม่และความต้องการด้านสถาปัตยกรรม
นักพัฒนาบางคนกำลังทดลองกับแนวทางแบบลำดับชั้นที่สะท้อนกระบวนการรับรู้ของมนุษย์ การจัดเก็บแนวคิดมากกว่ารายละเอียดที่แน่นอนและการสร้างชั้นสรุปที่สามารถเข้าถึงได้ตามต้องการ คนอื่นๆ สนับสนุนการปรับโครงสร้างโค้ดเบสให้เป็นมิตรกับ AI มากขึ้น ด้วยเอกสารที่ดีกว่าและสถาปัตยกรรมแบบโมดูลาร์ที่พอดีกับหน้าต่างบริบท
อย่างไรก็ตาม โซลูชันเหล่านี้ต้องการการลงทุนล่วงหน้าอย่างมากและอาจไม่แก้ไขข้อจำกัดพื้นฐานของสถาปัตยกรรม AI ปัจจุบัน ฉันทามติในหมู่นักพัฒนาคือการปรับปรุงที่ก้าวกระโดดจะต้องการการเปลี่ยนแปลงสถาปัตยกรรมที่เกินกว่าการขยายหน้าต่างบริบทอย่างง่าย อาจเกี่ยวข้องกับโมเดลแบบลำดับชั้นที่สามารถโฟกัสความสนใจไปที่ข้อมูลที่เกี่ยวข้องได้อย่างแท้จริงในขณะที่ทิ้งสิ่งที่ไม่เกี่ยวข้อง
เส้นทางไปข้างหน้าน่าจะเกี่ยวข้องกับทั้งเทคนิคการออกแบบบริบทที่ดีขึ้นและความก้าวหน้าพื้นฐานในสถาปัตยกรรม AI ที่สามารถจัดการกับบริบทที่ซับซ้อนและมีหลายชั้นที่การพัฒนาซอฟต์แวร์ในโลกจริงต้องการ