โมเดล AI ใหม่ของ ByteDance พิสูจน์ทฤษฎีบทระดับเหรียญทอง ไขโจทย์คณิตศาสตร์ระดับบัณฑิตศึกษา

ทีมบรรณาธิการ BigGo
โมเดล AI ใหม่ของ ByteDance พิสูจน์ทฤษฎีบทระดับเหรียญทอง ไขโจทย์คณิตศาสตร์ระดับบัณฑิตศึกษา

ขอบเขตของปัญญาประดิษฐ์กำลังก้าวหน้าเข้าสู่โดเมนที่ซับซ้อนของการให้เหตุผลอย่างเป็นทางการและเข้มงวดอย่างรวดเร็ว วันนี้ ทีม Seed ของ ByteDance ได้เปิดเผยความก้าวหน้าครั้งสำคัญในสาขานี้ด้วยการเปิดตัว Seed Prover 1.5 โมเดลเฉพาะทางที่ออกแบบมาเพื่อสร้างและตรวจสอบการพิสูจน์ทางคณิตศาสตร์อย่างเป็นทางการ รุ่นใหม่นี้แสดงให้เห็นถึงความสามารถที่น่าทายในการจัดการกับปัญหาตั้งแต่การแข่งขันระดับมัธยมปลายชั้นยอดไปจนถึงคณิตศาสตร์ขั้นสูงระดับบัณฑิตศึกษา ซึ่งส่งสัญญาณถึงการเปลี่ยนแปลงกระบวนทัศน์ที่อาจเกิดขึ้นในวิธีที่เครื่องจักรสามารถช่วยเหลือและอาจทำให้การวิจัยคณิตศาสตร์เชิงลึกเป็นไปโดยอัตโนมัติ

มาตรฐานใหม่ในการพิสูจน์ทฤษฎีบทอัตโนมัติ

Seed Prover 1.5 ของ ByteDance ไม่ใช่แชทบอทอเนกประสงค์ทั่วไป แต่เป็นเครื่องยนต์ที่ปรับแต่งมาอย่างดีสำหรับการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ หน้าที่หลักของมันคือการนำข้อความทางคณิตศาสตร์มาสร้างการพิสูจน์ที่สมบูรณ์และตรวจสอบได้ด้วยเครื่อง ซึ่งเขียนในภาษาโปรแกรม Lean ระบบที่นักคณิตศาสตร์ใช้เพื่อรับประกันความถูกต้องทางตรรกะอย่างแน่นอน ความสามารถของโมเดลได้รับการสาธิตบนเกณฑ์มาตรฐานสาธารณะที่ท้าทายที่สุด ที่น่าสังเกตที่สุดคือ มันสร้างการพิสูจน์ที่ตรวจสอบได้สำหรับห้าโจทย์แรกของการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ปี 2025 ภายในเวลาเพียง 16.5 ชั่วโมง เมื่อให้คะแนนตามมาตรฐาน IMO ในอดีต ผลการดำเนินงานนี้แปลเป็นคะแนน 35 จาก 42 ซึ่งเป็นผลลัพธ์ที่คว้าเหรียญทองในการแข่งขันในอดีตมาแล้ว ความสำเร็จนี้เพียงอย่างเดียวถือเป็นช่วงเวลาสำคัญสำหรับ AI ในคณิตศาสตร์เชิงรูปนัย

มาตรวัดประสิทธิภาพหลักสำหรับ Seed Prover 1.5:

มาตรวัด คำอธิบาย ประสิทธิภาพของ Seed Prover 1.5 บริบทของผลลัพธ์
IMO 2025 (P1-P5) การแข่งขันคณิตศาสตร์ระดับมัธยมปลายชั้นนำของโลก สร้างบทพิสูจน์ที่สามารถตรวจสอบได้ในเวลา 16.5 ชั่วโมง คะแนน 35/42 ซึ่งเป็นไปตามมาตรฐาน เหรียญทอง ในประวัติศาสตร์
Putnam 2025 การแข่งขันคณิตศาสตร์ระดับปริญญาตรีชั้นนำในอเมริกาเหนือ แก้ปัญหาได้ 11 จาก 12 ข้อในเวลา 9 ชั่วโมง แสดงขีดความสามารถที่แข็งแกร่งในระดับปริญญาตรีชั้นยอด
Putnam Historical ชุดปัญหาย้อนหลังทั้งหมดของการแข่งขัน Putnam แก้ปัญหาได้ 88% ของปัญหาทั้งหมด สร้างสมรรถนะที่แข็งแกร่งครอบคลุมรูปแบบปัญหาที่หลากหลาย
Fate-H แสดงถึงระดับความยากของคณิตศาสตร์ในระดับปริญญาโท แก้ปัญหาได้ 80% ของปัญหา เป็น State-of-the-Art (SOTA) ใหม่สำหรับโมเดลการให้เหตุผลเชิงรูปนัย
Fate-X แสดงถึงระดับความยากของคณิตศาสตร์ในระดับปริญญาเอก แก้ปัญหาได้ 33% ของปัญหา เป็น SOTA ใหม่; แสดงความสามารถในการจัดการปัญหาระดับงานวิจัย

ขยายขีดความสามารถจากระดับปริญญาตรีสู่ระดับปริญญาเอก

ความสามารถของโมเดลขยายไปไกลกว่าปัญหาโอลิมปิก ในการทดสอบกับ Putnam Competition การสอบที่ยากลำบากสำหรับนักศึกษาปริญญาตรีในอเมริกาเหนือ Seed Prover 1.5 แก้ปัญหาได้ 11 จาก 12 ข้อจากการแข่งขันปี 2025 ภายใน 9 ชั่วโมง และอย่างเป็นระบบมากขึ้น มันแก้ปัญหาได้สำเร็จ 88% ของปัญหาทั้งหมดในชุดข้อมูล Putnam ประวัติศาสตร์ เพื่อวัดประสิทธิภาพของมันในคณิตศาสตร์ระดับการวิจัยขั้นสูง ทีมงานได้ประเมินมันบนเกณฑ์มาตรฐาน Fate-H และ Fate-X ซึ่งแสดงถึงความยากของปัญหาระดับปริญญาโทและปริญญาเอกตามลำดับ ที่นี่ Seed Prover 1.5 แก้ปัญหา Fate-H ได้ 80% และแก้ปัญหา Fate-X ที่ยากเป็นพิเศษได้ 33% ซึ่งสร้างสถิติใหม่ล่าสุดสำหรับโมเดลการให้เหตุผลเชิงรูปนัยในการประเมินเหล่านี้

เครื่องยนต์เบื้องหลังความก้าวหน้า: การเรียนรู้แบบเสริมกำลังด้วยเอเจนต์

การปรับปรุงที่โดดเด่นเหนือรุ่นก่อนหน้าถูกนำมาประกอบกับวิธีการฝึกใหม่ที่อธิบายว่าเป็น "การเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่ด้วยเอเจนต์" วิธีการนี้ไปไกลกว่าการฝึกมาตรฐานบนชุดข้อมูลแบบคงที่ แต่แทนที่โมเดล AI จะทำหน้าที่เป็น "เอเจนต์" อัตโนมัติที่สำรวจพื้นที่ค้นหาอันกว้างใหญ่ของขั้นตอนการพิสูจน์ที่เป็นไปได้อย่างกระตือรือร้น มันเรียนรู้โดยพยายามสร้างการพิสูจน์ ได้รับข้อเสนอแนะเกี่ยวกับความสำเร็จ และปรับแต่งกลยุทธ์อย่างต่อเนื่อง กระบวนการวนซ้ำและปรับปรุงตนเองนี้เป็นกุญแจสำคัญในการพัฒนาการให้เหตุผลหลายขั้นตอนที่ซับซ้อนซึ่งจำเป็นสำหรับคณิตศาสตร์ระดับสูง นำไปสู่การเพิ่มขึ้นอย่างมีนัยสำคัญทั้งในความสามารถของโมเดลและประสิทธิภาพในการค้นหาการพิสูจน์

ข้อมูลจำเพาะทางเทคนิคหลัก:

  • หน้าที่หลัก: การพิสูจน์ทฤษฎีบทอัตโนมัติและการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ
  • รูปแบบผลลัพธ์: สร้างโค้ดพิสูจน์ที่สมบูรณ์และตรวจสอบได้ด้วยเครื่องในตัวพิสูจน์ทฤษฎีบท Lean
  • นวัตกรรมการฝึกอบรมหลัก: การเรียนรู้แบบเสริมกำลังด้วยเอเจนต์ขนาดใหญ่ (Agentic Reinforcement Learning - RL) ซึ่งช่วยให้สามารถสำรวจและปรับปรุงกลยุทธ์การพิสูจน์ได้อย่างอิสระ
  • ความพร้อมใช้งาน: รายงานทางเทคนิคและโค้ดพิสูจน์เผยแพร่เมื่อวันที่ 24 ธันวาคม 2025 มีแผนจะเปิดตัว API สาธารณะในอนาคต
  • ผู้พัฒนา: ByteDance Seed Team

ความหมายและการเข้าถึงในอนาคต

การเปิดตัว Seed Prover 1.5 พร้อมด้วยรายงานทางเทคนิคและรหัสการพิสูจน์ที่เปิดให้สาธารณะเข้าถึงได้ เปิดเส้นทางใหม่สำหรับการทำงานร่วมกันระหว่าง AI และนักคณิตศาสตร์มนุษย์ มันสามารถทำหน้าที่เป็นผู้ช่วยอันทรงพลัง ตรวจสอบความถูกต้องของการพิสูจน์ที่ซับซ้อน เสนอแนะกลยุทธ์การพิสูจน์ที่เป็นไปได้ หรือสำรวจข้อความคาดการณ์ ByteDance ได้ประกาศแผนที่จะเปิด API สำหรับโมเดล ซึ่งจะช่วยให้นักวิจัยและนักพัฒนาสามารถรวมความสามารถในการให้เหตุผลขั้นสูงนี้เข้ากับโครงการของตนเองได้ ณ เช้าวันที่ 24 ธันวาคม 2025 การประกาศนี้วางตำแหน่งให้ ByteDance อยู่แถวหน้าของช่องเฉพาะทางที่สำคัญและพัฒนาอย่างรวดเร็วภายในงานวิจัย AI โดยมีความหมายในระยะยาวที่อาจเกิดขึ้นสำหรับการค้นพบและการตรวจสอบทางวิทยาศาสตร์