Gemini ของ Google DeepMind คว้าเหรียญทองอย่างเป็นทางการในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ จุดประกายการถ่าเถียงเรื่อง AI กับการแข่งขันของมนุษย์

ทีมชุมชน BigGo

Gemini ของ Google DeepMind คว้าเหรียญทองอย่างเป็นทางการในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ จุดประกายการถ่าเถียงเรื่อง AI กับการแข่งขันของมนุษย์

Google DeepMind ได้สร้างความสำเร็จครั้งสำคัญด้วยการคว้าเหรียญทองอย่างเป็นทางการเป็นครั้งแรกสำหรับระบบ AI ในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) โมเดล Gemini Deep Think ขั้นสูงของพวกเขาสามารถแก้โจทย์ได้ 5 จาก 6 ข้อ ทำคะแนนได้ 35 จาก 42 คะแนน ซึ่งเข้าเกณฑ์เหรียญทอง ความสำเร็จนี้เกิดขึ้นเพียงไม่กี่วันหลังจากที่ OpenAI ออกมาอ้างผลงานคล้ายกัน แต่ผลลัพธ์ของ Google ได้รับการรับรองอย่างเป็นทางการจากผู้ประสานงาน IMO

การเปรียบเทียบประสิทธิภาพ:

Google Gemini Deep Think: 35/42 คะแนน (แก้โจทย์ได้ 5 ข้อ)
OpenAI o3: 35/42 คะแนน (แก้โจทย์ได้ 5 ข้อ)
ทั้งสองระบบล้มเหลวในโจทย์ข้อที่ 6 (ข้อที่ท้าทายที่สุด)
เกณฑ์เหรียญทอง: 35/42 คะแนน
เวลาจำกัดของการแข่งขัน: 4.5 ชั่วโมง

การแข่งขันเพื่อความเป็นเลิศด้าน AI คณิตศาสตร์

จังหวะเวลาของการประกาศเหล่านี้ได้สร้างความขัดแย้งในชุมชน AI OpenAI ได้เผยแพร่ผลลัพธ์ IMO ของพวกเขาในวันเดียวกับพิธีปิดการแข่งขัน แม้จะมีการร้องขอจากผู้จัดงานให้รอหนึ่งสัปดาห์เพื่อให้ผู้เข้าแข่งขันที่เป็นนักเรียนได้รับการยอมรับที่เหมาะสมก่อน ในทางตรงกันข้าม Google ได้เข้าร่วมในโปรแกรมอย่างเป็นทางการกับผู้ประสานงาน IMO และเคารพในกรอบเวลาที่ร้องขอ ความแตกต่างในแนวทางนี้ได้ดึงดูดการวิพากษ์วิจารณ์ต่อการจัดการสถานการณ์ของ OpenAI โดยหลายคนมองว่าเป็นการให้ความสำคัญกับการประชาสัมพันธ์มากกว่าการเคารพนักคณิตศาสตร์รุ่นเยาว์ที่เข้าแข่งขัน

ความสำเร็จทางเทคนิคเองนั้นน่าทึ่งมาก ระบบ AI ทั้งสองแก้โจทย์ข้อเดียวกันได้ห้าข้อและล้มเหลวในข้อที่หก ซึ่งเป็นข้อที่ท้าทายที่สุดและโดยทั่วไปต้องใช้ความคิดสร้างสรรค์อย่างมาก อย่างไรก็ตาม แนวทางของ Google แสดงถึงการเปลี่ยนแปลงครั้งใหญ่จากวิธีการของปีที่แล้ว โดยหันไปจากภาษาคณิตศาสตร์เชิงรูปแบบอย่าง Lean มาทำงานทั้งหมดในภาษาธรรมชาติภายในขีดจำกัดเวลาการแข่งขัน 4.5 ชั่วโมง

ความแตกต่างของแนวทางเทคนิค:

Google 2025: ภาษาธรรมชาติแบบ end-to-end ใช้เวลา 4.5 ชั่วโมง มีการประสานงานอย่างเป็นทางการกับ IMO
Google 2024: ต้องแปลด้วยตนเองเป็นภาษา Lean formal ใช้เวลาคำนวณ 2-3 วัน
OpenAI 2025: ประเมินผลด้วยตนเองโดยอดีตผู้ได้เหรียญ IMO ไม่มีการประสานงานอย่างเป็นทางการ

คำถามเกี่ยวกับความยุติธรรมและระเบียบวิธี

ชุมชนกำลังถกเถียงกันอย่างแข็งขันว่าผลลัพธ์เหล่านี้หมายความว่าอย่างไรจริงๆ สำหรับความสามารถของ AI นักคณิตศาสตร์ชื่อดัง Terence Tao ได้ตั้งคำถามสำคัญเกี่ยวกับการเปรียบเทียบประสิทธิภาพของ AI กับผู้แข่งขันมนุษย์ โดยสังเกตว่าเงื่อนไขอาจแตกต่างกันอย่างมาก ระบบ AI สามารถใช้ทรัพยากรการคำนวณขนาดใหญ่ การประมวลผลแบบขนาน และข้อมูลการฝึกอบรมเฉพาะทางได้ ซึ่งเป็นข้อได้เปรียบที่ผู้เข้าแข่งขันมนุษย์ไม่มี

การมองความสามารถของเทคโนโลยี AI ปัจจุบันเป็นปริมาณเดียวนั้นเป็นสิ่งที่น่าดึงดูด: งาน X ที่กำหนดจะอยู่ในความสามารถของเครื่องมือปัจจุบันหรือไม่ อย่างไรก็ตาม ในความเป็นจริงแล้วมีความแตกต่างอย่างกว้างขวางในความสามารถ (หลายลำดับขนาด) ขึ้นอยู่กับทรัพยากรและความช่วยเหลือที่ให้กับเครื่องมือ

การขาดความโปร่งใสเกี่ยวกับต้นทุนการคำนวณเป็นสิ่งที่น่ากังวลเป็นพิเศษสำหรับผู้สังเกตการณ์ ทั้ง Google และ OpenAI ไม่ได้เปิดเผยว่าต้องใช้พลังการคำนวณเท่าไหร่เพื่อให้ได้ผลลัพธ์เหล่านี้ ทำให้เกิดการคาดเดาว่าต้นทุนทางการเงินอาจสูงมหาศาล อาจถึงหลายพันดอลลาร์สหรัฐต่อการแก้โจทย์หนึ่งข้อ

ผลกระทบที่กว้างขวางต่อคณิตศาสตร์

แม้ว่าความสำเร็จเหล่านี้จะน่าประทับใจทางเทคนิค แต่นักคณิตศาสตร์แสดงความรู้สึกผสมผสานเกี่ยวกับความสำคัญของมัน หลายคนชี้ให้เห็นว่าคณิตศาสตร์การแข่งขันแตกต่างอย่างมากจากคณิตศาสตร์การวิจัย ซึ่งเป้าหมายคือความเข้าใจมากกว่าการหาคำตอบที่ถูกต้องเท่านั้น ความกลัวไม่ใช่ว่า AI จะมาแทนที่นักคณิตศาสตร์ แต่เป็นว่ามันอาจเปลี่ยนแปลงวิธีการสร้างและตรวจสอบความรู้ทางคณิตศาสตร์

การถกเถียงยังสัมผัสกับคำถามว่า AI ควรใช้เครื่องมือการตรวจสอบเชิงรูปแบบหรือไม่ บางคนโต้แย้งว่าเครื่องมืออย่าง Lean theorem provers จะทำให้วิธีแก้ปัญหาเชื่อถือได้มากขึ้น ในขณะที่คนอื่นเห็นคุณค่าในการแสดงให้เห็นความสามารถในการใช้เหตุผลอย่างบริสุทธิ์โดยไม่ต้องพึ่งพาเครื่องมือภายนอก การเลือกของ Google ที่จะทำงานในภาษาธรรมชาติแสดงถึงการเดิมพันว่าแนวทางปัญญาทั่วไปจะพิสูจน์ให้เห็นว่ามีคุณค่ามากกว่าวิธีการเชิงรูปแบบเฉพาะทางในท้ายที่สุด

บริบทการแข่งขัน IMO:

การแข่งขันประจำปีตั้งแต่ปี 1959
นักเรียน 6 คนต่อประเทศที่มีความสามารถระดับสูงก่อนเข้ามหาวิทยาลัย
6 โจทย์ครอบคลุมพีชคณิต เชิงผสม เรขาคณิต และทฤษฎีจำนวน
ผู้เข้าแข่งขันประมาณ 8% ได้รับเหรียญทอง
โจทย์ได้รับการออกแบบให้มนุษย์สามารถแก้ไขได้ภายในกรอบเวลาการแข่งขัน

มองไปข้างหน้า

การพัฒนาเหล่านี้เป็นจุดเปลี่ยนที่ชัดเจนในความสามารถทางคณิตศาสตร์ของ AI โดยเปลี่ยนจากเครื่องมือเฉพาะทางไปสู่ระบบการใช้เหตุผลที่ทั่วไปมากขึ้น อย่างไรก็ตาม ยังคงมีคำถามสำคัญเกี่ยวกับต้นทุน ความสามารถในการขยายขนาด และการประยุกต์ใช้ในโลกแห่งความจริง ความขัดแย้งเกี่ยวกับจังหวะเวลาการประกาศยังเน้นย้ำถึงความตึงเครียดที่กว้างขวางในอุตสาหกรรม AI ระหว่างความเข้มงวดทางวิทยาศาสตร์และการแข่งขันเชิงพาณิชย์

ขณะที่ระบบ AI ยังคงเทียบเท่าและเกินกว่าประสิทธิภาพของมนุษย์ในโดเมนเฉพาะทาง ชุมชนคณิตศาสตร์เผชิญกับการตัดสินใจสำคัญเกี่ยวกับวิธีการรวมเครื่องมือเหล่านี้เข้าด้วยกันในขณะที่ยังคงรักษาองค์ประกอบของมนุษย์ที่ทำให้คณิตศาสตร์มีความหมาย ผลลัพธ์ IMO นั้นน่าประทับใจ แต่เป็นเพียงจุดเริ่มต้นของการสนทนาที่ใหญ่กว่ามากเกี่ยวกับบทบาทของ AI ในการแสวงหาทางปัญญาของมนุษย์

อ้างอิง: Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌