ชุมชน AI กำลังเผชิญกับความขัดแย้งที่น่าสับสน ในขณะที่โมเดลล่าสุดจาก OpenAI และ Google สามารถทำคะแนนระดับเหรียญทองในการแข่งขัน International Mathematical Olympiad 2025 แต่ระบบเดียวกันนี้กลับมีปัญหากับงานพื้นฐานที่น่าแปลกใจซึ่งมนุษย์ส่วนใหญ่ทำได้อย่างง่ายดาย
ความขัดแย้งด้านประสิทธิภาพของ AI
ความแตกต่างนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในหมู่นักพัฒนาและนักวิจัย โมเดลภาษาขั้นสูงสามารถแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนซึ่งท้าทายนักเรียนที่ฉลาดที่สุดในโลกได้แล้ว แต่กลับล้มเหลวอย่างต่อเนื่องในเลขคณิตเบื้องต้นที่มีตัวเลขขนาดใหญ่ และแม้แต่แพ้ในเกม tic-tac-toe ซึ่งเป็นเกมที่ได้รับการแก้ปัญหาทางคณิตศาสตร์มาหลายทศวรรษแล้ว
การอภิปรายในชุมชนเผยให้เห็นความลึกของปัญหานี้ GPT-5 และโมเดลที่คล้ายกันไม่สามารถบวกเลขจำนวนเต็มขนาดใหญ่สองจำนวนได้อย่างน่าเชื่อถือโดยไม่ใช้เครื่องคิดเลข และมักทำผิดพลาดเมื่อคัดลอกผลลัพธ์ที่คำนวณได้อย่างถูกต้องแล้ว ที่น่าสนใจยิ่งกว่านั้น ระบบเหล่านี้จะเดินหมากที่ไม่ดีอย่างมั่นใจใน tic-tac-toe หลังจากใช้เวลาคิดเกี่ยวกับเกมนั้นอย่างมาก
หมายเหตุ: International Mathematical Olympiad เป็นการแข่งขันประจำปีที่มีโจทย์คณิตศาสตร์ระดับมัธยมปลายที่ท้าทายที่สุดในโลก
การเปรียบเทียบประสิทธิภาพของ AI ตามประเภทงาน:
ประเภทงาน | ระดับประสิทธิภาพ | ตัวอย่าง | ข้อจำกัดหลัก |
---|---|---|---|
"เป้าหมายง่าย" | ระดับเหรียญทอง | โจทย์คณิตศาสตร์ IMO , ความท้าทายด้านการเขียนโปรแกรม | ความฉลาดของโมเดล |
"เป้าหมายยาก" | แย่ถึงปานกลาง | การนำเสนอต่อคณะกรรมการ, การดำเนินธุรกิจ | ช่องว่างด้านบริบทและข้อกำหนด |
เลขคณิตพื้นฐาน | ไม่สม่ำเสมอ | การบวกจำนวนใหญ่, tic-tac-toe | ข้อผิดพลาดด้านการแบ่งโทเค็นและการใช้เหตุผล |
เหตุใดบริบทจึงสำคัญกว่าความฉลาดดิบ
ความแตกต่างที่สำคัญอยู่ที่วิธีการจัดโครงสร้างปัญหา โจทย์คณิตศาสตร์โอลิมปิกมาพร้อมกับข้อกำหนดที่สมบูรณ์และเป็นทางการซึ่งมีข้อมูลที่จำเป็นทั้งหมดสำหรับการแก้ปัญหา ไม่มีความคลุมเครือเกี่ยวกับสิ่งที่ถือเป็นคำตอบที่ถูกต้อง ในทางตรงกันข้าม งานในโลกจริงมีอยู่ในสภาพแวดล้อมที่ยุ่งเหยิงและเปลี่ยนแปลงได้ ซึ่งบริบทที่สำคัญกระจัดกระจายอยู่ในอีเมล การประชุม และความรู้ของผู้คน
นี่อธิบายได้ว่าทำไมโมเดลอาจเก่งในการพิสูจน์ทฤษฎีบทที่ซับซ้อน แต่กลับมีปัญหาในการเขียนงานนำเสนอต่อคณะกรรมการที่มีประสิทธิภาพ ปัญหาคณิตศาสตร์มีช่องว่างของข้อกำหนดเป็นศูนย์ ในขณะที่งานทางธุรกิจต้องการความเข้าใจเกี่ยวกับกลยุทธ์ของบริษัท พลวัตของคณะกรรมการ การตัดสินใจล่าสุด และข้อจำกัดที่ไม่ได้พูดออกมา
ข้อกำหนดสำหรับการแก้ไขงานของ AI อย่างมีประสิทธิภาพ:
• การระบุปัญหา: การกำหนดความต้องการของงานอย่างแม่นยำโดยมีความคลุมเครือน้อยที่สุด
• บริบท: ความรู้ในท้องถิ่นรวมถึงประวัติบริษัท การตัดสินใจ และข้อจำกัดต่างๆ
• ตัวแก้ปัญหา: โมเดล AI ที่มีเครื่องมือและความสามารถที่เหมาะสม
• ช่องว่างของข้อกำหนด: ความไม่แน่นอนที่เหลืออยู่หลังจากการกำหนดปัญหา - ช่องว่างที่เล็กลงจะนำไปสู่ประสิทธิภาพของ AI ที่ดีขึ้น
คอขวดของมนุษย์ในระบบอัตโนมัติ AI
แม้จะมีความฝันที่บริษัทจะดำเนินงานด้วย AI agent 90% แต่ข้อจำกัดปัจจุบันแสดงให้เห็นว่าเรายังห่างไกลจากความเป็นจริงนั้น คอขวดไม่ใช่ความฉลาดของโมเดล แต่เป็นความพยายามของมนุษย์อย่างมหาศาลที่จำเป็นในการระบุงานอย่างชัดเจนและให้บริบทที่เกี่ยวข้อง ขั้นตอนการทำงานทุกอย่างจะต้องมีข้อกำหนดที่ได้รับการออกแบบอย่างระมัดระวังและระบบส่งผ่านบริบท ซึ่งเป็นฝันร้ายในการบำรุงรักษาสำหรับองค์กรที่มีกระบวนการที่พึ่งพาซึ่งกันและกันหลายพันกระบวนการ
มนุษย์จะดิ้นรน แต่พวกเขาจะรับรู้สิ่งที่พวกเขาจำเป็นต้องรู้ และแสวงหาผู้คนที่อาจมีข้อมูลที่เกี่ยวข้อง
นี่เน้นย้ำถึงข้อได้เปรียบที่สำคัญที่มนุษย์ยังคงมี: ความสามารถในการรับรู้ช่องว่างของความรู้และแสวงหาข้อมูลที่ขาดหายไปอย่างแข็งขัน ซึ่งเป็นสิ่งที่ระบบ AI ปัจจุบันไม่สามารถทำได้อย่างน่าเชื่อถือ
เส้นทางข้างหน้าสำหรับระบบอัตโนมัติ AI
ชุมชนเห็นแนวทางแก้ไขที่มีศักยภาพกำลังเกิดขึ้น ระบบจัดการบริบทที่ดีขึ้น หน่วยความจำแบบ episodic ที่ปรับปรุงแล้วสำหรับ AI agent และหน้าต่างบริบทที่ยาวขึ้นอาจช่วยลดช่องว่างได้ นักพัฒนาบางคนรายงานความสำเร็จในการใช้ขั้นตอนการทำงานแบบหลายขั้นตอนที่ตรวจสอบฐานความรู้ก่อนและหลังคำขอ AI แต่ละครั้ง
อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงอยู่ จนกว่าระบบ AI จะสามารถระบุสิ่งที่พวกมันไม่รู้ได้อย่างน่าเชื่อถือและรวบรวมบริบทที่ขาดหายไปอย่างแข็งขัน การดูแลของมนุษย์จะยังคงจำเป็นสำหรับการใช้งานจริงส่วนใหญ่ อนาคตของระบบอัตโนมัติ AI อาจขึ้นอยู่กับการสร้างระบบที่ดีกว่าสำหรับการจับ จัดระเบียบ และส่งมอบบริบทที่โมเดลเหล่านี้ต้องการเพื่อประสบความสำเร็จมากกว่าการทำให้โมเดลฉลาดขึ้น
หมายเหตุ: ระบบหน่วยความจำแบบ episodic ช่วยให้ AI สามารถเก็บและเรียกคืนประสบการณ์หรือการโต้ตอบเฉพาะได้ คล้ายกับวิธีที่มนุษย์จดจำเหตุการณ์ในอดีต
อ้างอิง: Model intelligence is no longer the constraint for automation