การทดสอบความสามารถในการใช้เหตุผลของ GPT-5 จุดประกายการถกเถียงเรื่องการปนเปื้อนของข้อมูลฝึกสอน

ทีมชุมชน BigGo
การทดสอบความสามารถในการใช้เหตุผลของ GPT-5 จุดประกายการถกเถียงเรื่องการปนเปื้อนของข้อมูลฝึกสอน

การประเมินความสามารถในการใช้เหตุผลของ GPT-5 โดยใช้รายการแข่งขันทางทีวีของอังกฤษ Only Connect ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI เกี่ยวกับว่าผลลัพธ์ที่น่าประทับใจนี้สะท้อนถึงการปรับปรุงความสามารถในการใช้เหตุผลอย่างแท้จริง หรือเป็นเพียงการจำคำตอบจากข้อมูลฝึกสอนเท่านั้น

ข้อถกเถียงเรื่องการปนเปื้อน

ประเด็นหลักมุ่งเน้นไปที่การอ้างว่าคำถามในการทดสอบไม่ได้อยู่ในข้อมูลฝึกสอนของโมเดล สมาชิกในชุมชนได้ท้าทายสมมติฐานนี้อย่างรวดเร็ว โดยชี้ให้เห็นว่ามีฐานข้อมูลที่ครอบคลุมของคำถามและคำตอบ Only Connect ทั้งหมดอยู่ออนไลน์ที่ ocdb.cc ตอนต่างๆ ของรายการยังมีให้ดูอย่างแพร่หลายบน YouTube พร้อมกับคำบรรยาย และชุมชน Reddit มีการอภิปรายตอนต่างๆ อย่างละเอียดพร้อมเอกสารคำถาม-คำตอบที่ครบถ้วน

BBC เป็นหนึ่งในแหล่งข้อมูลที่น่าเชื่อถือที่สุดของเนื้อหาเสียง/ภาพออนไลน์หลายล้านชั่วโมง ซึ่งทั้งหมดมาพร้อมกับคำบรรยายที่มนุษย์คัดสรรและแก้ไข ทั้งหมดนี้สามารถดาวน์โหลดได้อย่างง่ายดาย

นักวิจารณ์โต้แย้งว่าการสมมติว่าเนื้อหานี้ไม่ได้รวมอยู่ในชุดข้อมูลฝึกสอนนั้นไม่สมจริง โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าโมเดลภาษาขนาดใหญ่มีการรวมเนื้อหา BBC และการอภิปรายใน Reddit ไว้ในข้อมูลฝึกสอนของพวกเขา

แหล่งข้อมูลการฝึกอบรมหลักที่ระบุได้:

  • ฐานข้อมูล OCDB : คลังข้อมูลที่สมบูรณ์ของคำถามและคำตอบ Only Connect ทั้งหมดที่ ocdb.cc
  • BBC iPlayer : เนื้อหาหลายล้านชั่วโมงพร้อมคำบรรยายที่คัดสรรโดยมนุษย์
  • YouTube : ตอนส่วนใหญ่มีให้บริการพร้อมคำบรรยาย
  • ชุมชน Reddit : การอภิปรายที่กว้างขวางพร้อม Google Docs ที่ติดตามคำถามและคำตอบ

วิธีการทดสอบถูกตั้งคำถาม

นักวิจัยพยายามตรวจสอบว่าโมเดลมีความรู้เดิมเกี่ยวกับคำถามหรือไม่ผ่านวิธีการต่างๆ รวมถึงการถามโมเดลโดยตรงว่าพวกเขาจำปริศนาได้หรือไม่ และพยายามดึงคำถามที่มีอยู่แล้วออกมา อย่างไรก็ตาม สมาชิกในชุมชนยังคงสงสัยในแนวทางเหล่านี้ โดยสังเกตว่าโมเดลสามารถใช้เหตุผลย้อนหลัง - ให้เหตุผลที่ดูเหมือนมีตรรกะแม้ในขณะที่ทำงานย้อนกลับจากคำตอบที่จำได้

ความท้าทายในการพิสูจน์ว่าไม่มีการปนเปื้อนของข้อมูลฝึกสอนได้พิสูจน์แล้วว่าเป็นไปไม่ได้เกือบจะเลยหากไม่มีการเข้าถึงน้ำหนักของโมเดล สมาชิกในชุมชนบางคนแนะนำแนวทางทางเลือก เช่น การใช้คำถามจากชมรมแข่งขันท้องถิ่นที่ไม่ได้เผยแพร่ออนไลน์ หรือการเน้นไปที่เนื้อหาหลังจากวันที่ตัดการฝึกสอนเพื่อให้แน่ใจว่าข้อมูลเป็นปัจจุบัน

ผลการทดสอบและผลกระทบ

แม้จะมีข้อถกเถียง ผลการทดสอบแสดงให้เห็นลำดับชั้นประสิทธิภาพที่ชัดเจน GPT-5 ที่มีพารามิเตอร์การใช้เหตุผลสูงบรรลุความแม่นยำโดยรวม 90% ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลรุ่นก่อนๆ อย่างมีนัยสำคัญ ผลลัพธ์ยังเผยให้เห็นว่าการตั้งค่าความพยายามในการใช้เหตุผลที่สูงขึ้นช่วยปรับปรุงประสิทธิภาพอย่างสม่ำเสมอ แม้ว่าจะต้องแลกมาด้วยการใช้โทเค็นที่เพิ่มขึ้นและเวลาตอบสนองที่นานขึ้น

น่าสนใจที่โมเดลมีประสิทธิภาพดีที่สุดในรอบ Missing Vowels (ซึ่งต้องการการสร้างวลีใหม่ที่มีสระถูกลบออก) และมีปัญหามากที่สุดกับรอบ Wall (การจัดกลุ่มองค์ประกอบ 16 ชิ้นเป็นหมวดหมู่) รูปแบบนี้บ่งบอกว่างานบางอย่างอาจเอื้อต่อการจับคู่รูปแบบทางสtatisticsมากกว่าการใช้เหตุผลอย่างแท้จริง

ผลการทดสอบประสิทธิภาพของ GPT-5 แยกตามการกำหนดค่า:

การกำหนดค่าโมเดล Connections Sequences Wall Missing Vowels โดยรวม
GPT-5 High/High 93.8% 90.0% 83.6% 97.1% 90.0%
GPT-5 Low/High 93.8% 76.3% 82.0% 96.4% 87.5%
GPT-5 High/Medium 87.5% 79.4% 81.3% 95.6% 86.7%
O3 93.8% 76.9% 78.1% 97.4% 86.3%
Claude Opus 4 65.6% 75.0% 65.6% 90.8% 76.1%
การประเมินประสิทธิภาพการใช้เหตุผลของ GPT-5 เน้นความแตกต่างระหว่างการจับคู่รูปแบบที่มีประสิทธิภาพกับความสามารถในการใช้เหตุผลที่แท้จริง
การประเมินประสิทธิภาพการใช้เหตุผลของ GPT-5 เน้นความแตกต่างระหว่างการจับคู่รูปแบบที่มีประสิทธิภาพกับความสามารถในการใช้เหตุผลที่แท้จริง

ปัญหาการทดสอบในวงกว้าง

การถกเถียงนี้เน้นย้ำถึงความท้าทายพื้นฐานในการประเมิน AI ดังที่สมาชิกในชุมชนคนหนึ่งกล่าวไว้ ควรสมมติว่าโมเดลสามารถแก้ปัญหาบางอย่างได้ดีกว่ามนุษย์โดยใช้วิธีการทางสถิติมากกว่าการใช้เหตุผลที่แท้จริง ข้อถกเถียงนี้สะท้อนถึงความกังวลที่เพิ่มขึ้นเกี่ยวกับความถูกต้องของการทดสอบเมื่อการปนเปื้อนของข้อมูลฝึกสอนยากที่จะตรวจจับและป้องกัน

การอภิปรายยังสัมผัสกับคำถามที่กว้างขึ้นเกี่ยวกับสิ่งที่ถือเป็นการใช้เหตุผลอย่างแท้จริงเทียบกับการจับคู่รูปแบบที่ซับซ้อน เมื่อโมเดลบรรลุประสิทธิภาพที่เหนือมนุษย์ในงานที่ดูเหมือนต้องการการคิดแบบข้างเคียง การแยกแยะระหว่างการจำและการใช้เหตุผลกลายเป็นเรื่องที่ซับซ้อนมากขึ้น

นักวิจัยวางแผนที่จะเผยแพร่ชุดข้อมูลที่สมบูรณ์และนำรูปแบบการแข่งขันระหว่างโมเดลมาใช้ แม้ว่าคำถามพื้นฐานเกี่ยวกับการปนเปื้อนของข้อมูลฝึกสอนและการประเมินการใช้เหตุผลจะยังคงไม่ได้รับการแก้ไข

อ้างอิง: Evaluating & Ranking GPT-5 Reasoning Ability