โมเดล AI ทำคะแนนไม่ถึงเหรียญทองแดงในการแข่งขัน International Math Olympiad 2025 แม้จะใช้ค่าคอมพิวเตอร์ 400 ดอลลาร์สหรัฐ

ทีมชุมชน BigGo
โมเดล AI ทำคะแนนไม่ถึงเหรียญทองแดงในการแข่งขัน International Math Olympiad 2025 แม้จะใช้ค่าคอมพิวเตอร์ 400 ดอลลาร์สหรัฐ

การประเมินล่าสุดของโมเดลปัญญาประดิษฐ์ในการแข่งขัน International Mathematical Olympiad 2025 เผยให้เห็นช่องว่างที่สำคัญระหว่างความสามารถของ AI ในปัจจุบันกับการใช้เหตุผลทางคณิตศาสตร์ของมนุษย์ แม้จะใช้เทคนิคการคำนวณขั้นสูงและทรัพยากรทางการเงินจำนวนมาก โมเดล AI ที่มีประสิทธิภาพสูงสุดก็ทำได้เพียง 31% ของความแม่นยำ ซึ่งอยู่ห่างไกลจากเกณฑ์เหรียญทองแดง

ผลการประเมินแสดงข้อจำกัดที่ชัดเจน

Gemini 2.5 Pro กลายเป็นผู้มีประสิทธิภาพสูงสุดในบรรดาโมเดลทั้งห้าที่ถูกทดสอบ โดยทำคะแนนได้ 13 จาก 42 คะแนน ซึ่งแสดงถึงการแก้ปัญหาได้ถูกต้องประมาณหนึ่งในสาม แต่ยังคงต่ำกว่า 19 คะแนนที่จำเป็นสำหรับเหรียญทองแดงอย่างมีนัยสำคัญ การประเมินครั้งนี้มีค่าใช้จ่ายประมาณ 400 ดอลลาร์สหรัฐสำหรับคำตอบเพียง 24 ข้อจาก Gemini ซึ่งเน้นย้ำถึงลักษณะที่มีค่าใช้จ่ายสูงของการ inference ของ AI ในปัจจุบันในระดับใหญ่

โมเดลสำคัญอื่นๆ มีประสิทธิภาพที่แย่กว่ามาก Grok-4 และ DeepSeek-R1 ตามหลังอย่างมาก โดยคำตอบหลายข้อประกอบด้วยเพียงคำตอบสุดท้ายเปล่าๆ โดยไม่มีเหตุผลทางคณิตศาสตร์ ชุมชนได้สังเกตเห็นรูปแบบนี้ในหลายเกณฑ์มาตรฐาน ซึ่งบ่งบอกถึงปัญหาพื้นฐานในแนวทางการใช้เหตุผลทางคณิตศาสตร์ของโมเดลเหล่านี้

การเปรียบเทียบประสิทธิภาพของโมเดล

  • Gemini 2.5 Pro : 13/42 คะแนน (ความแม่นยำ 31%) - ผู้มีประสิทธิภาพสูงสุด
  • Grok-4 : ประสิทธิภาพต่ำกว่าอย่างมีนัยสำคัญ มักให้คำตอบโดยไม่มีการอธิบายเหตุผล
  • DeepSeek-R1 : ประสิทธิภาพต่ำกว่าเมื่อเทียบกับเกณฑ์มาตรฐานอื่น ๆ
  • o3 และ o4-mini : ประสิทธิภาพไม่ได้ระบุรายละเอียดเฉพาะเจาะจง แต่อยู่ต่ำกว่าเกณฑ์เหรียญทองแดง
  • เกณฑ์เหรียญทองแดง: 19/42 คะแนน (ความแม่นยำ 45%)

พลังการคำนวณไม่สามารถเชื่อมช่องว่างได้

นักวิจัยใช้กลยุทธ์การเลือกแบบ best-of-32 โดยสร้างคำตอบที่แตกต่างกัน 32 แบบสำหรับแต่ละปัญหา และใช้โมเดล AI เองในการตัดสินว่าคำตอบใดแข็งแกร่งที่สุด แนวทางแบบทัวร์นาเมนต์นี้ปรับปรุงผลลัพธ์อย่างมีนัยสำคัญเมื่อเปรียบเทียบกับการพยายามครั้งเดียว แต่ยังคงไม่สามารถไปถึงประสิทธิภาพระดับเหรียญได้

ความต้องการด้านการคำนวณมีจำนวนมาก คำตอบสุดท้ายแต่ละข้อมีค่าใช้จ่ายอย่างน้อย 3 ดอลลาร์สหรัฐในการสร้างโดยเฉลี่ย โดยคำตอบของ Grok-4 มีค่าใช้จ่ายมากกว่า 20 ดอลลาร์สหรัฐต่อข้อ สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสามารถในการขยายขนาดที่ปฏิบัติได้ของการใช้เหตุผลทางคณิตศาสตร์ของ AI ในปัจจุบัน โดยเฉพาะเมื่อผลลัพธ์ยังคงห่างไกลจากประสิทธิภาพของผู้เชี่ยวชาญมนุษย์

ต้นทุนการคำนวณ

  • ต้นทุนเฉลี่ยต่อคำตอบสุดท้าย: $3+ USD
  • ต้นทุน Grok-4 ต่อคำตอบ: $20+ USD
  • ต้นทุนรวมสำหรับการประเมิน Gemini 2.5 Pro : $400 USD สำหรับ 24 คำตอบ
  • วิธีการ: การคัดเลือกแบบ Best-of-32 พร้อมการตัดสินแบบทัวร์นาเมนต์
  • ขีดจำกัดโทเค็น: สูงสุด 64,000 โทเค็นต่อโมเดล

ปัญหาด้านคุณภาพยังคงมีอยู่ในการใช้เหตุผลทางคณิตศาสตร์ของ AI

การประเมินเผยให้เห็นรูปแบบที่น่าเป็นห่วงหลายประการในพฤติกรรมของ AI Gemini 2.5 Pro ยังคงอ้างอิงทฤษฎีทางคณิตศาสตร์ที่ไม่มีอยู่จริงเมื่อต่อสู้กับการพิสูจน์ แม้ว่าพฤติกรรมนี้จะปรากฏน้อยกว่าในการประเมินครั้งก่อนๆ การสร้างเรื่องเกี่ยวกับอำนาจทางคณิตศาสตร์เช่นนี้ทำลายความไว้วางใจในเนื้อหาทางคณิตศาสตร์ที่ AI สร้างขึ้น

น่าสนใจที่โมเดลต่างๆ มักได้รับคะแนนบางส่วนสำหรับการระบุกลยุทธ์ที่ถูกต้อง แต่ล้มเหลวในการดำเนินการพิสูจน์ที่เหมาะสม ผู้ตัดสินที่เป็นมนุษย์สังเกตว่าคำตอบของ AI มักมีช่องว่างทางตรรกะที่จะค่อนข้างตรงไปตรงมาสำหรับนักคณิตศาสตร์มนุษย์ที่จะหลีกเลี่ยง สิ่งนี้บ่งบอกว่าโมเดลเข้าใจแนวคิดทางคณิตศาสตร์ในระดับผิวเผิน แต่ต่อสู้กับการใช้เหตุผลเชิงตรรกะที่เข้มงวด

ชุมชนถกเถียงมาตรฐานการประเมิน AI

ผลลัพธ์ได้จุดประกายการอภิปรายเกี่ยวกับเกณฑ์มาตรฐานที่เหมาะสมสำหรับความสามารถของ AI สมาชิกชุมชนบางคนโต้แย้งว่าการเปรียบเทียบ AI กับมนุษย์ที่มีประสิทธิภาพสูงสุดในโดเมนเฉพาะทางพลาดประเด็นของการประยุกต์ใช้ AI ในทางปฏิบัติ ปัญหาในชีวิตประจำวันส่วนใหญ่ไม่ต้องการความคิดสร้างสรรค์ทางคณิตศาสตร์ระดับโอลิมปิก

อย่างไรก็ตาม คนอื่นๆ โต้แย้งว่าการใช้เหตุผลทางคณิตศาสตร์แสดงถึงการทดสอบที่สำคัญของสติปัญญาแท้จริงมากกว่าการจับคู่รูปแบบ ข้อเท็จจริงที่ว่าโมเดลเหล่านี้สามารถเข้าถึงปัญหาที่คล้ายกันหลายล้านข้อผ่านข้อมูลการฝึกอบรม แต่ยังคงล้มเหลวในความท้าทายทางคณิตศาสตร์ใหม่ บ่งบอกถึงข้อจำกัดพื้นฐานในสถาปัตยกรรม AI ปัจจุบัน

คนทั่วไปแย่ในเกือบทุกสิ่งทุกอย่างอย่างแท้จริง หากฉันต้องการให้ทำอะไรบางอย่าง ฉันจะหาคนที่มีชุดทักษะที่ตรงกับปัญหา

วิธีการประเมินผล

  • โมเดลที่ทดสอบ: LLM ล้ำสมัย 5 โมเดล ( o3 , o4-mini , Gemini-2.5-Pro , Grok-4 , DeepSeek-R1 )
  • การตัดสิน: ผู้เชี่ยวชาญด้านมนุษย์ 4 คนที่มีความเชี่ยวชาญทางคณิตศาสตร์ระดับ IMO
  • การให้คะแนน: คะแนนเต็ม 7 คะแนนต่อปัญหา รวม 42 คะแนน
  • กระบวนการคัดเลือก: สร้างคำตอบ 32 คำตอบ แล้วคัดเลือกแบบทัวร์นาเมนต์โดยใช้การตัดสินของโมเดลเอง
  • เวลาในการประเมิน: ทันทีหลังจากการเปิดเผยปัญหา IMO 2025 เพื่อป้องกันการปนเปื้อน
ภาพของแท่นยืนที่มีผู้ชนะเป็นมนุษย์และหุ่นยนต์ที่งุนงงเป็นสัญลักษณ์ของการถกเถียงที่ดำเนินอยู่เกี่ยวกับความสามารถในการใช้เหตุผลทางคณิตศาสตร์ของ AI เมื่อเปรียบเทียบกับประสิทธิภาพของมนุษย์
ภาพของแท่นยืนที่มีผู้ชนะเป็นมนุษย์และหุ่นยนต์ที่งุนงงเป็นสัญลักษณ์ของการถกเถียงที่ดำเนินอยู่เกี่ยวกับความสามารถในการใช้เหตุผลทางคณิตศาสตร์ของ AI เมื่อเปรียบเทียบกับประสิทธิภาพของมนุษย์

การอ้างสิทธิ์ที่ขัดแย้งกันเพิ่มความไม่แน่นอน

การเพิ่มความซับซ้อนให้กับการประเมิน OpenAI ประกาศว่าโมเดลทดลองที่ยังไม่เปิดตัวทำประสิทธิภาพระดับเหรียญทองในปัญหาเดียวกัน อย่างไรก็ตาม การอ้างสิทธิ์นี้ขาดการตรวจสอบอิสระและเกี่ยวข้องกับทรัพยากรการคำนวณไม่จำกัด ทำให้การเปรียบเทียบโดยตรงทำได้ยาก

ชุมชนยังคงสงสัยในการอ้างสิทธิ์ที่ไม่ได้รับการตรวจสอบ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาแรงจูงใจทางการเงินที่สำคัญในอุตสาหกรรม AI หากไม่มีวิธีการที่โปร่งใสและผลลัพธ์ที่สามารถทำซ้ำได้ การประกาศดังกล่าวมีส่วนช่วยเพียงเล็กน้อยในการทำความเข้าใจความสามารถของ AI ที่แท้จริง

การประเมิน IMO 2025 แสดงให้เห็นว่าแม้จะมีความก้าวหน้าที่น่าประทับใจในการสร้างภาษา โมเดล AI ปัจจุบันยังคงต่อสู้กับประเภทของการใช้เหตุผลเชิงสร้างสรรค์และตรรกะที่การแก้ปัญหาทางคณิตศาสตร์ต้องการ ในขณะที่พวกมันแสดงให้เห็นความสัญญาในการระบุกลยุทธ์ที่เกี่ยวข้อง การดำเนินการพิสูจน์ทางคณิตศาสตร์ที่เข้มงวดยังคงเป็นความท้าทายที่สำคัญสำหรับระบบปัญญาประดิษฐ์

อ้างอิง: Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad