การอภิปรายแบบแผงล่าสุดใน San Francisco ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยีเกี่ยวกับเหตุผลที่การปรับใช้ AI agent ล้มเหลวในอัตราที่น่าตกใจ งานนี้ซึ่งมีวิศวกรจากบริษัท AI ชั้นนำเข้าร่วม เผยให้เห็นว่า 95% ของการปรับใช้ AI agent ล้มเหลวในสภาพแวดล้อมการผลิต แต่ไม่ใช่ด้วยเหตุผลที่คนส่วนใหญ่คาดคิด
สstatisticsความล้มเหลวของ AI Agent:
- 95% ของการนำ AI agent ไปใช้งานจริงล้มเหลว
- ความล้มเหลวเกิดจากปัญหาโครงสร้างพื้นฐาน ไม่ใช่ความฉลาดของโมเดล
- พื้นที่หลักที่เกิดความล้มเหลว: การออกแบบ context การรักษาความปลอดภัย การจัดการหน่วยความจำ
ปัญหาที่แท้จริงไม่ได้อยู่ที่ความฉลาดของ AI
การอภิปรายได้เผยให้เห็นความจริงที่น่าประหลาดใจซึ่งกำลังสะท้อนไปทั่วชุมชนนักพัฒนา ความล้มเหลวของ AI agent ในการผลิตไม่ได้เกิดจากโมเดลพื้นฐานขาดความฉลาด แต่ตัวการที่แท้จริงอยู่ที่โครงสร้างพื้นฐานทางวิศวกรรมที่ซับซ้อนรอบๆ โมเดลเหล่านี้ ซึ่งผู้เชี่ยวชาญเรียกว่า scaffolding
Scaffolding นี้รวมถึงการออกแบบบริบท โปรโตคอลความปลอดภัย การจัดการหน่วยความจำ และระบบการกำหนดเส้นทางแบบหลายโมเดล ส่วนประกอบเหล่านี้ทำงานร่วมกันเพื่อทำให้ AI agent เชื่อถือได้และไว้วางใจได้ในการใช้งานจริง เมื่อส่วนใดส่วนหนึ่งของระบบนี้ล้มเหลว การปรับใช้ AI ทั้งหมดจะกลายเป็นสิ่งที่ไม่น่าเชื่อถือ
ความท้าทายทางเทคนิคหลัก:
- การเลือกและตรวจสอบความถูกต้องของบริบท
- การประสานงานและการกำหนดเส้นทางของโมเดลหลายตัว
- การนำเลเยอร์เชิงความหมายมาใช้งาน
- การออกแบบและจัดการหน่วยความจำ
- ข้อกำหนดความน่าเชื่อถือแบบกำหนดได้
Text-to-SQL: Hello World ที่หลอกลวงของ AI
หนึ่งในพื้นที่ที่สร้างการถกเถียงอย่างมากในชุมชนคือแอปพลิเคชัน text-to-SQL ระบบเหล่านี้ดูเหมือนจะตรงไปตรงมาบนพื้นผิว - พวกมันแปลคำถามภาษาธรรมชาติเป็นคำสั่งฐานข้อมูล อย่างไรก็ตาม นักพัฒนากำลังค้นพบว่าความเรียบง่ายที่ปรากฏนี้ปิดบังความซับซ้อนอย่างมหาศาล
ความท้าทายเกิดจากลักษณะที่คลุมเครือของภาษามนุษย์เมื่อนำไปใช้กับการดำเนินการฐานข้อมูลที่แม่นยำ เมื่อผู้ใช้ถามเกี่ยวกับรายได้หรือผู้ใช้ที่ใช้งานอยู่ AI ต้องเข้าใจไม่เพียงแค่คำพูด แต่ยังรวมถึงบริบททางธุรกิจที่เฉพาะเจาะจงและโครงสร้างฐานข้อมูลด้วย สิ่งนี้ต้องการงานวิศวกรรมอย่างกว้างขวางเพื่อแมปแนวคิดภาษาธรรมชาติกับสคีมาฐานข้อมูลที่แน่นอนและคำนิยามทางธุรกิจ
ภาษาธรรมชาติมีความคลุมเครือ ความหมายของฐานข้อมูล ความหมายของโดเมน และคำถามของผู้ใช้ และคำนิยามของบริษัทเกี่ยวกับ 'รายได้' หรือ 'ผู้ใช้ที่ใช้งานอยู่' ไม่ได้ถูกแมปทั้งหมดโดยไม่มีการออกแบบวิศวกรรมที่ชัดเจน
ความขัดแย้งของระบบผู้เชี่ยวชาญ
สมาชิกชุมชนได้ระบุรูปแบบที่น่าเป็นห่วงในแนวทางการพัฒนา AI ปัจจุบัน เพื่อทำให้ AI agent เชื่อถือได้เพียงพอสำหรับการใช้งานจริง นักพัฒนากำลังสร้างระบบที่ใช้กฎเกณฑ์ที่ซับซ้อน ตัวแยกวิเคราะห์ที่เข้มงวด และตัวตรวจสอบผลลัพธ์ ส่วนประกอบเหล่านี้จัดการตรรกะทางธุรกิจและป้องกันข้อผิดพลาดของ AI
อย่างไรก็ตาม แนวทางนี้สร้างสถานการณ์ที่ขัดแย้ง หากนักพัฒนาต้องสร้างตรรกะทางธุรกิจทั้งหมดด้วยตนเองเพื่อทำให้ AI เชื่อถือได้ พวกเขาได้สร้างระบบผู้เชี่ยวชาญของหลายทศวรรษที่ผ่านมาขึ้นมาใหม่โดยพื้นฐาน บางคนโต้แย้งว่าสิ่งนี้ทำให้ส่วนประกอบ AI ไม่จำเป็น - หากคุณได้สร้างตรรกะทางธุรกิจ 100% แล้ว ทำไมไม่ข้ามชั้นกลาง AI ที่คาดเดาไม่ได้ไปเลย
อินเทอร์เฟซแชท: ไม่ใช่คำตอบเสมอไป
การอภิปรายแบบแผงยังท้าทายสมมติฐานที่ว่าอินเทอร์เฟซแชทเป็นสิ่งที่เหมาะสำหรับแอปพลิเคชัน AI ฉันทามติแนะนำว่าอินเทอร์เฟซที่ใช้การสนทนาทำงานได้ดีที่สุดเมื่อพวกมันลดเส้นโค้งการเรียนรู้สำหรับผู้ใช้ แต่เวิร์กโฟลว์ที่ซับซ้อนหลายอย่างไม่สามารถแมปได้ดีกับการโต้ตอบแชทบอทแบบง่ายๆ
ชุมชนกำลังโน้มเอียงไปสู่แนวทางแบบผสมผสานที่รวมแชทสำหรับการป้อนข้อมูลเริ่มต้นเข้ากับการควบคุม GUI แบบดั้งเดิมสำหรับการปรับแต่งและการทำซ้ำ สิ่งนี้ให้ความสะดวกของการป้อนข้อมูลภาษาธรรมชาติแก่ผู้ใช้ในขณะที่รักษาความแม่นยำและการควบคุมที่จำเป็นสำหรับงานที่ซับซ้อน
แนวทางปฏิบัติที่ดีที่สุดสำหรับอินเทอร์เฟซแชท:
- ใช้แชทสำหรับคำถามทั่วไปและคำถามแบบเปิด
- ใช้รูปแบบไฮบริด (แชท + การควบคุม GUI )
- หลีกเลี่ยงการใช้แชทสำหรับเวิร์กโฟลว์ที่ซับซ้อนซึ่งต้องการการควบคุมจากผู้ใช้
- มุ่งเน้นไปที่การลดเส้นโค้งการเรียนรู้มากกว่าการแทนที่อินเทอร์เฟซทั้งหมด
มองไปข้างหน้า: สนามรบต่อไป
เมื่ออุตสาหกรรม AI เติบโตขึ้น คลื่นลูกต่อไปของบริษัทที่ประสบความสำเร็จจะไม่ใช่บริษัทที่มีโมเดลภาษาที่ล้ำหน้าที่สุด แต่จะเป็นบริษัทที่เชี่ยวชาญด้านคุณภาพบริบท การออกแบบหน่วยความจำ และความเชื่อถือได้แบบกำหนดได้ การมุ่งเน้นกำลังเปลี่ยนจากความสามารถ AI ดิบไปสู่ความเป็นเลิศทางวิศวกรรมในระบบที่สนับสนุนและจำกัดพฤติกรรม AI
สิ่งนี้แสดงถึงการเปลี่ยนแปลงพื้นฐานในวิธีที่อุตสาหกรรมคิดเกี่ยวกับการพัฒนา AI ความสำเร็จจะมาจากไม่ใช่พรอมต์ที่ดีกว่าหรือโมเดลที่ทรงพลังมากกว่า แต่จากการแก้ไขความท้าทายทางวิศวกรรมที่ไม่น่าตื่นเต้นซึ่งทำให้ระบบ AI น่าเชื่อถือและเชื่อถือได้ในสภาพแวดล้อมการผลิต
อ้างอิง: What Makes 5% of AI Agents Actually Work in Production