การประเมินความสามารถในการใช้เหตุผลของ GPT-5 โดยใช้รายการแข่งขันทางทีวีของอังกฤษ Only Connect ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI เกี่ยวกับว่าผลลัพธ์ที่น่าประทับใจนี้สะท้อนถึงการปรับปรุงความสามารถในการใช้เหตุผลอย่างแท้จริง หรือเป็นเพียงการจำคำตอบจากข้อมูลฝึกสอนเท่านั้น
ข้อถกเถียงเรื่องการปนเปื้อน
ประเด็นหลักมุ่งเน้นไปที่การอ้างว่าคำถามในการทดสอบไม่ได้อยู่ในข้อมูลฝึกสอนของโมเดล สมาชิกในชุมชนได้ท้าทายสมมติฐานนี้อย่างรวดเร็ว โดยชี้ให้เห็นว่ามีฐานข้อมูลที่ครอบคลุมของคำถามและคำตอบ Only Connect ทั้งหมดอยู่ออนไลน์ที่ ocdb.cc ตอนต่างๆ ของรายการยังมีให้ดูอย่างแพร่หลายบน YouTube พร้อมกับคำบรรยาย และชุมชน Reddit มีการอภิปรายตอนต่างๆ อย่างละเอียดพร้อมเอกสารคำถาม-คำตอบที่ครบถ้วน
BBC เป็นหนึ่งในแหล่งข้อมูลที่น่าเชื่อถือที่สุดของเนื้อหาเสียง/ภาพออนไลน์หลายล้านชั่วโมง ซึ่งทั้งหมดมาพร้อมกับคำบรรยายที่มนุษย์คัดสรรและแก้ไข ทั้งหมดนี้สามารถดาวน์โหลดได้อย่างง่ายดาย
นักวิจารณ์โต้แย้งว่าการสมมติว่าเนื้อหานี้ไม่ได้รวมอยู่ในชุดข้อมูลฝึกสอนนั้นไม่สมจริง โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าโมเดลภาษาขนาดใหญ่มีการรวมเนื้อหา BBC และการอภิปรายใน Reddit ไว้ในข้อมูลฝึกสอนของพวกเขา
แหล่งข้อมูลการฝึกอบรมหลักที่ระบุได้:
- ฐานข้อมูล OCDB : คลังข้อมูลที่สมบูรณ์ของคำถามและคำตอบ Only Connect ทั้งหมดที่ ocdb.cc
- BBC iPlayer : เนื้อหาหลายล้านชั่วโมงพร้อมคำบรรยายที่คัดสรรโดยมนุษย์
- YouTube : ตอนส่วนใหญ่มีให้บริการพร้อมคำบรรยาย
- ชุมชน Reddit : การอภิปรายที่กว้างขวางพร้อม Google Docs ที่ติดตามคำถามและคำตอบ
วิธีการทดสอบถูกตั้งคำถาม
นักวิจัยพยายามตรวจสอบว่าโมเดลมีความรู้เดิมเกี่ยวกับคำถามหรือไม่ผ่านวิธีการต่างๆ รวมถึงการถามโมเดลโดยตรงว่าพวกเขาจำปริศนาได้หรือไม่ และพยายามดึงคำถามที่มีอยู่แล้วออกมา อย่างไรก็ตาม สมาชิกในชุมชนยังคงสงสัยในแนวทางเหล่านี้ โดยสังเกตว่าโมเดลสามารถใช้เหตุผลย้อนหลัง - ให้เหตุผลที่ดูเหมือนมีตรรกะแม้ในขณะที่ทำงานย้อนกลับจากคำตอบที่จำได้
ความท้าทายในการพิสูจน์ว่าไม่มีการปนเปื้อนของข้อมูลฝึกสอนได้พิสูจน์แล้วว่าเป็นไปไม่ได้เกือบจะเลยหากไม่มีการเข้าถึงน้ำหนักของโมเดล สมาชิกในชุมชนบางคนแนะนำแนวทางทางเลือก เช่น การใช้คำถามจากชมรมแข่งขันท้องถิ่นที่ไม่ได้เผยแพร่ออนไลน์ หรือการเน้นไปที่เนื้อหาหลังจากวันที่ตัดการฝึกสอนเพื่อให้แน่ใจว่าข้อมูลเป็นปัจจุบัน
ผลการทดสอบและผลกระทบ
แม้จะมีข้อถกเถียง ผลการทดสอบแสดงให้เห็นลำดับชั้นประสิทธิภาพที่ชัดเจน GPT-5 ที่มีพารามิเตอร์การใช้เหตุผลสูงบรรลุความแม่นยำโดยรวม 90% ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลรุ่นก่อนๆ อย่างมีนัยสำคัญ ผลลัพธ์ยังเผยให้เห็นว่าการตั้งค่าความพยายามในการใช้เหตุผลที่สูงขึ้นช่วยปรับปรุงประสิทธิภาพอย่างสม่ำเสมอ แม้ว่าจะต้องแลกมาด้วยการใช้โทเค็นที่เพิ่มขึ้นและเวลาตอบสนองที่นานขึ้น
น่าสนใจที่โมเดลมีประสิทธิภาพดีที่สุดในรอบ Missing Vowels (ซึ่งต้องการการสร้างวลีใหม่ที่มีสระถูกลบออก) และมีปัญหามากที่สุดกับรอบ Wall (การจัดกลุ่มองค์ประกอบ 16 ชิ้นเป็นหมวดหมู่) รูปแบบนี้บ่งบอกว่างานบางอย่างอาจเอื้อต่อการจับคู่รูปแบบทางสtatisticsมากกว่าการใช้เหตุผลอย่างแท้จริง
ผลการทดสอบประสิทธิภาพของ GPT-5 แยกตามการกำหนดค่า:
การกำหนดค่าโมเดล | Connections | Sequences | Wall | Missing Vowels | โดยรวม |
---|---|---|---|---|---|
GPT-5 High/High | 93.8% | 90.0% | 83.6% | 97.1% | 90.0% |
GPT-5 Low/High | 93.8% | 76.3% | 82.0% | 96.4% | 87.5% |
GPT-5 High/Medium | 87.5% | 79.4% | 81.3% | 95.6% | 86.7% |
O3 | 93.8% | 76.9% | 78.1% | 97.4% | 86.3% |
Claude Opus 4 | 65.6% | 75.0% | 65.6% | 90.8% | 76.1% |
![]() |
---|
การประเมินประสิทธิภาพการใช้เหตุผลของ GPT-5 เน้นความแตกต่างระหว่างการจับคู่รูปแบบที่มีประสิทธิภาพกับความสามารถในการใช้เหตุผลที่แท้จริง |
ปัญหาการทดสอบในวงกว้าง
การถกเถียงนี้เน้นย้ำถึงความท้าทายพื้นฐานในการประเมิน AI ดังที่สมาชิกในชุมชนคนหนึ่งกล่าวไว้ ควรสมมติว่าโมเดลสามารถแก้ปัญหาบางอย่างได้ดีกว่ามนุษย์โดยใช้วิธีการทางสถิติมากกว่าการใช้เหตุผลที่แท้จริง ข้อถกเถียงนี้สะท้อนถึงความกังวลที่เพิ่มขึ้นเกี่ยวกับความถูกต้องของการทดสอบเมื่อการปนเปื้อนของข้อมูลฝึกสอนยากที่จะตรวจจับและป้องกัน
การอภิปรายยังสัมผัสกับคำถามที่กว้างขึ้นเกี่ยวกับสิ่งที่ถือเป็นการใช้เหตุผลอย่างแท้จริงเทียบกับการจับคู่รูปแบบที่ซับซ้อน เมื่อโมเดลบรรลุประสิทธิภาพที่เหนือมนุษย์ในงานที่ดูเหมือนต้องการการคิดแบบข้างเคียง การแยกแยะระหว่างการจำและการใช้เหตุผลกลายเป็นเรื่องที่ซับซ้อนมากขึ้น
นักวิจัยวางแผนที่จะเผยแพร่ชุดข้อมูลที่สมบูรณ์และนำรูปแบบการแข่งขันระหว่างโมเดลมาใช้ แม้ว่าคำถามพื้นฐานเกี่ยวกับการปนเปื้อนของข้อมูลฝึกสอนและการประเมินการใช้เหตุผลจะยังคงไม่ได้รับการแก้ไข