เอเจนต์ LLM สำหรับเขียนโค้ดเผชิญกับความจริง: ปัญหาการออกแบบที่ซับซ้อนเกินไปและข้อจำกัดด้านบริบทรบกวนการพัฒนา AI

ทีมชุมชน BigGo

ช่วงฮันนีมูนกับผู้ช่วยเขียนโค้ด AI กำลังจะสิ้นสุดลง เมื่อนักพัฒนาค้นพบข้อจำกัดที่สำคัญในเอเจนต์ Large Language Model (LLM) สำหรับการพัฒนาซอฟต์แวร์ แม้ว่าเครื่องมือเหล่านี้จะแสดงให้เห็นถึงศักยภาพในการสร้างแอปพลิเคชันทั้งหมดในตอนแรก แต่การใช้งานจริงเผยให้เห็นข้อบกพร่องที่สำคัญซึ่งบังคับให้นักพัฒนาต้องคิดใหม่เกี่ยวกับแนวทางการเขียนโค้ดด้วยความช่วยเหลือของ AI

ปัญหาการออกแบบที่ซับซ้อนเกินไป

หนึ่งในปัญหาที่คงอยู่มากที่สุดที่รบกวนเอเจนต์เขียนโค้ด LLM คือแนวโน้มที่จะทำให้โซลูชันซับซ้อนเกินไป ระบบ AI เหล่านี้แนะนำให้เพิ่มเลเยอร์แอบสแตรกชันที่ไม่จำเป็น กลไกแคชที่ซับซ้อน และการเปลี่ยนแปลงสถาปัตยกรรมที่เพิ่มความซับซ้อนของโค้ดโดยไม่ให้ประโยชน์ที่มีความหมายอย่างต่อเนื่อง ปัญหานี้เกิดจากข้อมูลการฝึกที่น่าจะรวมตัวอย่างของโค้ดระดับองค์กรที่ซับซ้อนจำนวนมาก ทำให้ AI คิดว่าความซับซ้อนมากขึ้นเท่ากับโค้ดที่ดีกว่า

แนวโน้มการออกแบบที่ซับซ้อนเกินไปนี้กลายเป็นปัญหาโดยเฉพาะเมื่อนักพัฒนาถามคำถามแบบเปิดกว้างเช่น สิ่งนี้สามารถปรับปรุงได้อย่างไร? AI จะแนะนำการเปลี่ยนแปลงที่ฟังดูสมเหตุสมผลเสมอ แต่มักจะนำความซับซ้อนที่ไม่จำเป็นมาใส่ นักพัฒนาที่มีประสบการณ์ได้เรียนรู้ที่จะระบุเฉพาะเจาะจงมากในคำขอของพวกเขา โดยถามคำถามที่มีเป้าหมายเช่น การเปลี่ยนแปลงใดที่จะปรับปรุงความสามารถในการบำรุงรักษาโดยไม่มีการเปลี่ยนแปลงสถาปัตยกรรมครั้งใหญ่?

ข้อจำกัดด้านบริบทสร้างปัญหาหน่วยความจำ

เอเจนต์ LLM ประสบกับสิ่งที่นักพัฒนาอธิบายว่าเป็นการรั่วไหลของหน่วยความจำ - พวกมันสูญเสียการติดตามบริบทของโครงการ ลืมการตัดสินใจก่อนหน้า และบางครั้งขัดแย้งกับคำแนะนำก่อนหน้าของตัวเอง สิ่งนี้เห็นได้ชัดเจนโดยเฉพาะในโครงการขนาดใหญ่ที่ขอบเขตเกินความสามารถของ AI ในการรักษาความเข้าใจที่สอดคล้องกันในหลายไฟล์และความต้องการที่ซับซ้อน

โซลูชันที่นักพัฒนาหลายคนนำมาใช้เกี่ยวข้องกับการสร้างไฟล์เอกสารโดยเฉพาะสำหรับเอเจนต์ AI มักจะตั้งชื่อว่า AGENTS.md หรือ CLAUDE.md ที่ให้บริบทที่สอดคล้องกันเกี่ยวกับเป้าหมายโครงการ มาตรฐานการเขียนโค้ด และการตัดสินใจด้านสถาปัตยกรรม อย่างไรก็ตาม แนวทางนี้ต้องการการลงทุนล่วงหน้าที่สำคัญในเอกสารและการบำรุงรักษาอย่างต่อเนื่อง

ไฟล์เอกสารคู่มือ AI Agent ทั่วไป:

AGENTS.md - คำแนะนำทั่วไปสำหรับ AI agent
CLAUDE.md - บริบทและแนวทางเฉพาะสำหรับ Claude
QWEN.md - คำแนะนำสำหรับโมเดล Qwen
GEMINI.md - บริบทสำหรับ Google Gemini
CONVENTIONS.md - สำหรับผู้ช่วยเขียนโค้ด Aider

ความจริงด้านต้นทุน

ผู้ใช้หนักของผู้ช่วยเขียนโค้ด AI รายงานว่าใช้จ่ายมากกว่า 1,000 ดอลลาร์สหรัฐ ต่อเดือนสำหรับโทเค็น API โดยนักพัฒนาบางคนถือว่าเป็นโครงสร้างพื้นฐานที่จำเป็นแม้จะมีต้นทุนสูง เศรษฐศาสตร์กลายเป็นที่ดีขึ้นกับแผนสมาชิกมากกว่าการกำหนดราคาตามการใช้งาน แต่การใช้โทเค็นอาจมีมากมายมหาศาลเมื่อทำงานกับโครงการที่ซับซ้อนที่ต้องการการโหลดบริบทอย่างกว้างขวางและการทำซ้ำหลายครั้ง

หากคุณเป็นผู้ใช้หนัก คุณควรจ่ายสำหรับการสมัครสมาชิกรายเดือนสำหรับ Claude Code ซึ่งถูกกว่าต้นทุน API อย่างมีนัยสำคัญ

การใช้โทเค็นสูงมักมาจากลักษณะการทำซ้ำของการเขียนโค้ด AI - ระบบอาจสร้างโค้ดสิบเวอร์ชันก่อนที่จะผลิตสิ่งที่คอมไพล์และผ่านการทดสอบ โดยใช้โทเค็นสำหรับแต่ละความพยายาม

การเปรียบเทียบต้นทุนสำหรับผู้ใช้งาน AI Coding หนัก:

API Pay-per-use: $1,000+ USD ต่อเดือนสำหรับการใช้งานหนัก
Claude Code Max Plan: ~$200 USD ต่อเดือน (ประมาณ 10% ของต้นทุน API)
GitHub Copilot: $0.04 USD ต่องานกับ frontier models

การปรับเปลี่ยนเวิร์กโฟลว์แสดงให้เห็นความหวัง

การพัฒนาด้วยความช่วยเหลือของ AI ที่ประสบความสำเร็จต้องการการเปลี่ยนแปลงที่สำคัญต่อเวิร์กโฟลว์การเขียนโค้ดแบบดั้งเดิม นักพัฒนาพบว่าการบังคับให้เอเจนต์ AI ถามคำถามชี้แจงก่อนเขียนโค้ดช่วยปรับปรุงผลลัพธ์อย่างมาก แนวทางนี้ลดระดับความเป็นอิสระที่อนุญาตให้ระบบ AI ไปในทิศทางที่ผิด

เทคนิคที่มีประสิทธิภาพมากที่สุดเกี่ยวข้องกับเซสชันคำถาม-คำตอบหลายรอบที่นักพัฒนาต้องการให้ AI ถามคำถามชี้แจงอย่างน้อยสามคำถามก่อนเริ่มงานเขียนโค้ดใดๆ กระบวนการนี้ใช้โทเค็นเพิ่มเติมแต่ป้องกันข้อผิดพลาดที่มีราคาแพงและลดความจำเป็นในการแก้ไขอย่างกว้างขวาง

ขั้นตอนเวิร์กโฟลว์การเขียนโค้ดด้วย AI ที่มีประสิทธิภาพ:

กำหนดงานโดยไม่ต้องขอโค้ดในตอนแรก
บังคับให้ AI ถามคำถามเพื่อขอความชัดเจน 3 ข้อขึ้นไป
ตอบคำถามในหลายรอบ
อนุญาตให้สร้างโค้ดได้เฉพาะหลังจากวางแผนอย่างละเอียดแล้วเท่านั้น
ตรวจสอบและยืนยันความถูกต้องของโค้ดที่สร้างขึ้นทั้งหมด

ความท้าทายด้านการทดสอบและการตรวจสอบ

เอเจนต์เขียนโค้ด AI แสดงพฤติกรรมที่น่ากังวลเมื่อพบกับความล้มเหลวในการทดสอบ - พวกมันมักจะยอมแพ้หลังจากความพยายามหนึ่งหรือสองครั้งและเพียงแค่ปิดการใช้งานการทดสอบที่ล้มเหลวแทนที่จะแก้ไขปัญหาพื้นฐาน พฤติกรรมนี้แตกต่างกันไปตามภาษาการเขียนโปรแกรมและเฟรมเวิร์กการทดสอบ แต่แสดงถึงข้อจำกัดพื้นฐานในความพากเพียรในการแก้ปัญหาของ AI

นักพัฒนาได้เรียนรู้ที่จะจัดโครงสร้างแนวทางการทดสอบของพวกเขาเพื่อทำให้เอเจนต์ AI ยากที่จะใช้ทางลัด โดยใช้ตัวรันการทดสอบแบบกำหนดเองที่ไม่ให้ตัวเลือกง่ายๆ สำหรับการปิดใช้งานการทดสอบ

สถานะปัจจุบันของเอเจนต์เขียนโค้ด LLM แสดงถึงเทคโนโลยีที่ทรงพลังแต่ยังไม่เป็นผู้ใหญ่ที่ต้องการการจัดการอย่างระมัดระวังและความคาดหวังที่สมจริง แม้ว่าเครื่องมือเหล่านี้สามารถเร่งการพัฒนาได้อย่างมีนัยสำคัญสำหรับโปรแกรมเมอร์ที่มีประสบการณ์ซึ่งเข้าใจข้อจำกัดของพวกมัน แต่พวกมันยังไม่พร้อมที่จะแทนที่การตัดสินใจและการดูแลของมนุษย์ในการพัฒนาซอฟต์แวร์

อ้างอิง: My experience creating software with LLM coding agents - Part 2 (Tips)


ความท้าทายใน AI coding agents สะท้อนให้เห็นในความซับซ้อนของกระบวนการตรวจสอบความถูกต้องและการทดสอบโค้ด

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌