โมเดล AI เก่งโจทย์คณิตศาสตร์โอลิมปิก แต่ล้มเหลวในเลขคณิตพื้นฐานและเกม Tic-Tac-Toe

ทีมชุมชน BigGo
โมเดล AI เก่งโจทย์คณิตศาสตร์โอลิมปิก แต่ล้มเหลวในเลขคณิตพื้นฐานและเกม Tic-Tac-Toe

ชุมชน AI กำลังเผชิญกับความขัดแย้งที่น่าสับสน ในขณะที่โมเดลล่าสุดจาก OpenAI และ Google สามารถทำคะแนนระดับเหรียญทองในการแข่งขัน International Mathematical Olympiad 2025 แต่ระบบเดียวกันนี้กลับมีปัญหากับงานพื้นฐานที่น่าแปลกใจซึ่งมนุษย์ส่วนใหญ่ทำได้อย่างง่ายดาย

ความขัดแย้งด้านประสิทธิภาพของ AI

ความแตกต่างนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในหมู่นักพัฒนาและนักวิจัย โมเดลภาษาขั้นสูงสามารถแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนซึ่งท้าทายนักเรียนที่ฉลาดที่สุดในโลกได้แล้ว แต่กลับล้มเหลวอย่างต่อเนื่องในเลขคณิตเบื้องต้นที่มีตัวเลขขนาดใหญ่ และแม้แต่แพ้ในเกม tic-tac-toe ซึ่งเป็นเกมที่ได้รับการแก้ปัญหาทางคณิตศาสตร์มาหลายทศวรรษแล้ว

การอภิปรายในชุมชนเผยให้เห็นความลึกของปัญหานี้ GPT-5 และโมเดลที่คล้ายกันไม่สามารถบวกเลขจำนวนเต็มขนาดใหญ่สองจำนวนได้อย่างน่าเชื่อถือโดยไม่ใช้เครื่องคิดเลข และมักทำผิดพลาดเมื่อคัดลอกผลลัพธ์ที่คำนวณได้อย่างถูกต้องแล้ว ที่น่าสนใจยิ่งกว่านั้น ระบบเหล่านี้จะเดินหมากที่ไม่ดีอย่างมั่นใจใน tic-tac-toe หลังจากใช้เวลาคิดเกี่ยวกับเกมนั้นอย่างมาก

หมายเหตุ: International Mathematical Olympiad เป็นการแข่งขันประจำปีที่มีโจทย์คณิตศาสตร์ระดับมัธยมปลายที่ท้าทายที่สุดในโลก

การเปรียบเทียบประสิทธิภาพของ AI ตามประเภทงาน:

ประเภทงาน ระดับประสิทธิภาพ ตัวอย่าง ข้อจำกัดหลัก
"เป้าหมายง่าย" ระดับเหรียญทอง โจทย์คณิตศาสตร์ IMO , ความท้าทายด้านการเขียนโปรแกรม ความฉลาดของโมเดล
"เป้าหมายยาก" แย่ถึงปานกลาง การนำเสนอต่อคณะกรรมการ, การดำเนินธุรกิจ ช่องว่างด้านบริบทและข้อกำหนด
เลขคณิตพื้นฐาน ไม่สม่ำเสมอ การบวกจำนวนใหญ่, tic-tac-toe ข้อผิดพลาดด้านการแบ่งโทเค็นและการใช้เหตุผล

เหตุใดบริบทจึงสำคัญกว่าความฉลาดดิบ

ความแตกต่างที่สำคัญอยู่ที่วิธีการจัดโครงสร้างปัญหา โจทย์คณิตศาสตร์โอลิมปิกมาพร้อมกับข้อกำหนดที่สมบูรณ์และเป็นทางการซึ่งมีข้อมูลที่จำเป็นทั้งหมดสำหรับการแก้ปัญหา ไม่มีความคลุมเครือเกี่ยวกับสิ่งที่ถือเป็นคำตอบที่ถูกต้อง ในทางตรงกันข้าม งานในโลกจริงมีอยู่ในสภาพแวดล้อมที่ยุ่งเหยิงและเปลี่ยนแปลงได้ ซึ่งบริบทที่สำคัญกระจัดกระจายอยู่ในอีเมล การประชุม และความรู้ของผู้คน

นี่อธิบายได้ว่าทำไมโมเดลอาจเก่งในการพิสูจน์ทฤษฎีบทที่ซับซ้อน แต่กลับมีปัญหาในการเขียนงานนำเสนอต่อคณะกรรมการที่มีประสิทธิภาพ ปัญหาคณิตศาสตร์มีช่องว่างของข้อกำหนดเป็นศูนย์ ในขณะที่งานทางธุรกิจต้องการความเข้าใจเกี่ยวกับกลยุทธ์ของบริษัท พลวัตของคณะกรรมการ การตัดสินใจล่าสุด และข้อจำกัดที่ไม่ได้พูดออกมา

ข้อกำหนดสำหรับการแก้ไขงานของ AI อย่างมีประสิทธิภาพ:

การระบุปัญหา: การกำหนดความต้องการของงานอย่างแม่นยำโดยมีความคลุมเครือน้อยที่สุด • บริบท: ความรู้ในท้องถิ่นรวมถึงประวัติบริษัท การตัดสินใจ และข้อจำกัดต่างๆ
ตัวแก้ปัญหา: โมเดล AI ที่มีเครื่องมือและความสามารถที่เหมาะสม • ช่องว่างของข้อกำหนด: ความไม่แน่นอนที่เหลืออยู่หลังจากการกำหนดปัญหา - ช่องว่างที่เล็กลงจะนำไปสู่ประสิทธิภาพของ AI ที่ดีขึ้น

คอขวดของมนุษย์ในระบบอัตโนมัติ AI

แม้จะมีความฝันที่บริษัทจะดำเนินงานด้วย AI agent 90% แต่ข้อจำกัดปัจจุบันแสดงให้เห็นว่าเรายังห่างไกลจากความเป็นจริงนั้น คอขวดไม่ใช่ความฉลาดของโมเดล แต่เป็นความพยายามของมนุษย์อย่างมหาศาลที่จำเป็นในการระบุงานอย่างชัดเจนและให้บริบทที่เกี่ยวข้อง ขั้นตอนการทำงานทุกอย่างจะต้องมีข้อกำหนดที่ได้รับการออกแบบอย่างระมัดระวังและระบบส่งผ่านบริบท ซึ่งเป็นฝันร้ายในการบำรุงรักษาสำหรับองค์กรที่มีกระบวนการที่พึ่งพาซึ่งกันและกันหลายพันกระบวนการ

มนุษย์จะดิ้นรน แต่พวกเขาจะรับรู้สิ่งที่พวกเขาจำเป็นต้องรู้ และแสวงหาผู้คนที่อาจมีข้อมูลที่เกี่ยวข้อง

นี่เน้นย้ำถึงข้อได้เปรียบที่สำคัญที่มนุษย์ยังคงมี: ความสามารถในการรับรู้ช่องว่างของความรู้และแสวงหาข้อมูลที่ขาดหายไปอย่างแข็งขัน ซึ่งเป็นสิ่งที่ระบบ AI ปัจจุบันไม่สามารถทำได้อย่างน่าเชื่อถือ

เส้นทางข้างหน้าสำหรับระบบอัตโนมัติ AI

ชุมชนเห็นแนวทางแก้ไขที่มีศักยภาพกำลังเกิดขึ้น ระบบจัดการบริบทที่ดีขึ้น หน่วยความจำแบบ episodic ที่ปรับปรุงแล้วสำหรับ AI agent และหน้าต่างบริบทที่ยาวขึ้นอาจช่วยลดช่องว่างได้ นักพัฒนาบางคนรายงานความสำเร็จในการใช้ขั้นตอนการทำงานแบบหลายขั้นตอนที่ตรวจสอบฐานความรู้ก่อนและหลังคำขอ AI แต่ละครั้ง

อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงอยู่ จนกว่าระบบ AI จะสามารถระบุสิ่งที่พวกมันไม่รู้ได้อย่างน่าเชื่อถือและรวบรวมบริบทที่ขาดหายไปอย่างแข็งขัน การดูแลของมนุษย์จะยังคงจำเป็นสำหรับการใช้งานจริงส่วนใหญ่ อนาคตของระบบอัตโนมัติ AI อาจขึ้นอยู่กับการสร้างระบบที่ดีกว่าสำหรับการจับ จัดระเบียบ และส่งมอบบริบทที่โมเดลเหล่านี้ต้องการเพื่อประสบความสำเร็จมากกว่าการทำให้โมเดลฉลาดขึ้น

หมายเหตุ: ระบบหน่วยความจำแบบ episodic ช่วยให้ AI สามารถเก็บและเรียกคืนประสบการณ์หรือการโต้ตอบเฉพาะได้ คล้ายกับวิธีที่มนุษย์จดจำเหตุการณ์ในอดีต

อ้างอิง: Model intelligence is no longer the constraint for automation