การประเมินล่าสุดของโมเดลปัญญาประดิษฐ์ในการแข่งขัน International Mathematical Olympiad 2025 เผยให้เห็นช่องว่างที่สำคัญระหว่างความสามารถของ AI ในปัจจุบันกับการใช้เหตุผลทางคณิตศาสตร์ของมนุษย์ แม้จะใช้เทคนิคการคำนวณขั้นสูงและทรัพยากรทางการเงินจำนวนมาก โมเดล AI ที่มีประสิทธิภาพสูงสุดก็ทำได้เพียง 31% ของความแม่นยำ ซึ่งอยู่ห่างไกลจากเกณฑ์เหรียญทองแดง
ผลการประเมินแสดงข้อจำกัดที่ชัดเจน
Gemini 2.5 Pro กลายเป็นผู้มีประสิทธิภาพสูงสุดในบรรดาโมเดลทั้งห้าที่ถูกทดสอบ โดยทำคะแนนได้ 13 จาก 42 คะแนน ซึ่งแสดงถึงการแก้ปัญหาได้ถูกต้องประมาณหนึ่งในสาม แต่ยังคงต่ำกว่า 19 คะแนนที่จำเป็นสำหรับเหรียญทองแดงอย่างมีนัยสำคัญ การประเมินครั้งนี้มีค่าใช้จ่ายประมาณ 400 ดอลลาร์สหรัฐสำหรับคำตอบเพียง 24 ข้อจาก Gemini ซึ่งเน้นย้ำถึงลักษณะที่มีค่าใช้จ่ายสูงของการ inference ของ AI ในปัจจุบันในระดับใหญ่
โมเดลสำคัญอื่นๆ มีประสิทธิภาพที่แย่กว่ามาก Grok-4 และ DeepSeek-R1 ตามหลังอย่างมาก โดยคำตอบหลายข้อประกอบด้วยเพียงคำตอบสุดท้ายเปล่าๆ โดยไม่มีเหตุผลทางคณิตศาสตร์ ชุมชนได้สังเกตเห็นรูปแบบนี้ในหลายเกณฑ์มาตรฐาน ซึ่งบ่งบอกถึงปัญหาพื้นฐานในแนวทางการใช้เหตุผลทางคณิตศาสตร์ของโมเดลเหล่านี้
การเปรียบเทียบประสิทธิภาพของโมเดล
- Gemini 2.5 Pro : 13/42 คะแนน (ความแม่นยำ 31%) - ผู้มีประสิทธิภาพสูงสุด
- Grok-4 : ประสิทธิภาพต่ำกว่าอย่างมีนัยสำคัญ มักให้คำตอบโดยไม่มีการอธิบายเหตุผล
- DeepSeek-R1 : ประสิทธิภาพต่ำกว่าเมื่อเทียบกับเกณฑ์มาตรฐานอื่น ๆ
- o3 และ o4-mini : ประสิทธิภาพไม่ได้ระบุรายละเอียดเฉพาะเจาะจง แต่อยู่ต่ำกว่าเกณฑ์เหรียญทองแดง
- เกณฑ์เหรียญทองแดง: 19/42 คะแนน (ความแม่นยำ 45%)
พลังการคำนวณไม่สามารถเชื่อมช่องว่างได้
นักวิจัยใช้กลยุทธ์การเลือกแบบ best-of-32 โดยสร้างคำตอบที่แตกต่างกัน 32 แบบสำหรับแต่ละปัญหา และใช้โมเดล AI เองในการตัดสินว่าคำตอบใดแข็งแกร่งที่สุด แนวทางแบบทัวร์นาเมนต์นี้ปรับปรุงผลลัพธ์อย่างมีนัยสำคัญเมื่อเปรียบเทียบกับการพยายามครั้งเดียว แต่ยังคงไม่สามารถไปถึงประสิทธิภาพระดับเหรียญได้
ความต้องการด้านการคำนวณมีจำนวนมาก คำตอบสุดท้ายแต่ละข้อมีค่าใช้จ่ายอย่างน้อย 3 ดอลลาร์สหรัฐในการสร้างโดยเฉลี่ย โดยคำตอบของ Grok-4 มีค่าใช้จ่ายมากกว่า 20 ดอลลาร์สหรัฐต่อข้อ สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสามารถในการขยายขนาดที่ปฏิบัติได้ของการใช้เหตุผลทางคณิตศาสตร์ของ AI ในปัจจุบัน โดยเฉพาะเมื่อผลลัพธ์ยังคงห่างไกลจากประสิทธิภาพของผู้เชี่ยวชาญมนุษย์
ต้นทุนการคำนวณ
- ต้นทุนเฉลี่ยต่อคำตอบสุดท้าย: $3+ USD
- ต้นทุน Grok-4 ต่อคำตอบ: $20+ USD
- ต้นทุนรวมสำหรับการประเมิน Gemini 2.5 Pro : $400 USD สำหรับ 24 คำตอบ
- วิธีการ: การคัดเลือกแบบ Best-of-32 พร้อมการตัดสินแบบทัวร์นาเมนต์
- ขีดจำกัดโทเค็น: สูงสุด 64,000 โทเค็นต่อโมเดล
ปัญหาด้านคุณภาพยังคงมีอยู่ในการใช้เหตุผลทางคณิตศาสตร์ของ AI
การประเมินเผยให้เห็นรูปแบบที่น่าเป็นห่วงหลายประการในพฤติกรรมของ AI Gemini 2.5 Pro ยังคงอ้างอิงทฤษฎีทางคณิตศาสตร์ที่ไม่มีอยู่จริงเมื่อต่อสู้กับการพิสูจน์ แม้ว่าพฤติกรรมนี้จะปรากฏน้อยกว่าในการประเมินครั้งก่อนๆ การสร้างเรื่องเกี่ยวกับอำนาจทางคณิตศาสตร์เช่นนี้ทำลายความไว้วางใจในเนื้อหาทางคณิตศาสตร์ที่ AI สร้างขึ้น
น่าสนใจที่โมเดลต่างๆ มักได้รับคะแนนบางส่วนสำหรับการระบุกลยุทธ์ที่ถูกต้อง แต่ล้มเหลวในการดำเนินการพิสูจน์ที่เหมาะสม ผู้ตัดสินที่เป็นมนุษย์สังเกตว่าคำตอบของ AI มักมีช่องว่างทางตรรกะที่จะค่อนข้างตรงไปตรงมาสำหรับนักคณิตศาสตร์มนุษย์ที่จะหลีกเลี่ยง สิ่งนี้บ่งบอกว่าโมเดลเข้าใจแนวคิดทางคณิตศาสตร์ในระดับผิวเผิน แต่ต่อสู้กับการใช้เหตุผลเชิงตรรกะที่เข้มงวด
ชุมชนถกเถียงมาตรฐานการประเมิน AI
ผลลัพธ์ได้จุดประกายการอภิปรายเกี่ยวกับเกณฑ์มาตรฐานที่เหมาะสมสำหรับความสามารถของ AI สมาชิกชุมชนบางคนโต้แย้งว่าการเปรียบเทียบ AI กับมนุษย์ที่มีประสิทธิภาพสูงสุดในโดเมนเฉพาะทางพลาดประเด็นของการประยุกต์ใช้ AI ในทางปฏิบัติ ปัญหาในชีวิตประจำวันส่วนใหญ่ไม่ต้องการความคิดสร้างสรรค์ทางคณิตศาสตร์ระดับโอลิมปิก
อย่างไรก็ตาม คนอื่นๆ โต้แย้งว่าการใช้เหตุผลทางคณิตศาสตร์แสดงถึงการทดสอบที่สำคัญของสติปัญญาแท้จริงมากกว่าการจับคู่รูปแบบ ข้อเท็จจริงที่ว่าโมเดลเหล่านี้สามารถเข้าถึงปัญหาที่คล้ายกันหลายล้านข้อผ่านข้อมูลการฝึกอบรม แต่ยังคงล้มเหลวในความท้าทายทางคณิตศาสตร์ใหม่ บ่งบอกถึงข้อจำกัดพื้นฐานในสถาปัตยกรรม AI ปัจจุบัน
คนทั่วไปแย่ในเกือบทุกสิ่งทุกอย่างอย่างแท้จริง หากฉันต้องการให้ทำอะไรบางอย่าง ฉันจะหาคนที่มีชุดทักษะที่ตรงกับปัญหา
วิธีการประเมินผล
- โมเดลที่ทดสอบ: LLM ล้ำสมัย 5 โมเดล ( o3 , o4-mini , Gemini-2.5-Pro , Grok-4 , DeepSeek-R1 )
- การตัดสิน: ผู้เชี่ยวชาญด้านมนุษย์ 4 คนที่มีความเชี่ยวชาญทางคณิตศาสตร์ระดับ IMO
- การให้คะแนน: คะแนนเต็ม 7 คะแนนต่อปัญหา รวม 42 คะแนน
- กระบวนการคัดเลือก: สร้างคำตอบ 32 คำตอบ แล้วคัดเลือกแบบทัวร์นาเมนต์โดยใช้การตัดสินของโมเดลเอง
- เวลาในการประเมิน: ทันทีหลังจากการเปิดเผยปัญหา IMO 2025 เพื่อป้องกันการปนเปื้อน
![]() |
---|
ภาพของแท่นยืนที่มีผู้ชนะเป็นมนุษย์และหุ่นยนต์ที่งุนงงเป็นสัญลักษณ์ของการถกเถียงที่ดำเนินอยู่เกี่ยวกับความสามารถในการใช้เหตุผลทางคณิตศาสตร์ของ AI เมื่อเปรียบเทียบกับประสิทธิภาพของมนุษย์ |
การอ้างสิทธิ์ที่ขัดแย้งกันเพิ่มความไม่แน่นอน
การเพิ่มความซับซ้อนให้กับการประเมิน OpenAI ประกาศว่าโมเดลทดลองที่ยังไม่เปิดตัวทำประสิทธิภาพระดับเหรียญทองในปัญหาเดียวกัน อย่างไรก็ตาม การอ้างสิทธิ์นี้ขาดการตรวจสอบอิสระและเกี่ยวข้องกับทรัพยากรการคำนวณไม่จำกัด ทำให้การเปรียบเทียบโดยตรงทำได้ยาก
ชุมชนยังคงสงสัยในการอ้างสิทธิ์ที่ไม่ได้รับการตรวจสอบ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาแรงจูงใจทางการเงินที่สำคัญในอุตสาหกรรม AI หากไม่มีวิธีการที่โปร่งใสและผลลัพธ์ที่สามารถทำซ้ำได้ การประกาศดังกล่าวมีส่วนช่วยเพียงเล็กน้อยในการทำความเข้าใจความสามารถของ AI ที่แท้จริง
การประเมิน IMO 2025 แสดงให้เห็นว่าแม้จะมีความก้าวหน้าที่น่าประทับใจในการสร้างภาษา โมเดล AI ปัจจุบันยังคงต่อสู้กับประเภทของการใช้เหตุผลเชิงสร้างสรรค์และตรรกะที่การแก้ปัญหาทางคณิตศาสตร์ต้องการ ในขณะที่พวกมันแสดงให้เห็นความสัญญาในการระบุกลยุทธ์ที่เกี่ยวข้อง การดำเนินการพิสูจน์ทางคณิตศาสตร์ที่เข้มงวดยังคงเป็นความท้าทายที่สำคัญสำหรับระบบปัญญาประดิษฐ์
อ้างอิง: Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad