การประเมินใหม่ของ GPT-5 โดยใช้เกณฑ์มาตรฐาน MedHELM medical AI benchmark ได้เผยให้เห็นภาพที่ซับซ้อนของความก้าวหน้าและการถดถอย ทำให้เกิดการอภิปรายอย่างเข้มข้นเกี่ยวกับการเพิ่มประสิทธิภาพโมเดลและวิธีการทดสอบในชุมชน AI
การศึกษานี้ได้รวม GPT-5 เข้ากับ MedHELM ซึ่งเป็นชุดประเมิน medical AI ที่ครอบคลุมและทดสอบความสามารถในด้านการคำนวณทางการแพทย์ การจดจำข้อเท็จจริง การวิเคราะห์หลักฐาน และมาตรการความปลอดภัย แม้ว่าผลลัพธ์จะแสดงให้เห็นการปรับปรุงที่น่าสังเกต แต่ก็ยังเน้นย้ำถึงพื้นที่ที่น่ากังวลซึ่งโมเดลล่าสุดดูเหมือนจะถอยหลัง
ประสิทธิภาพที่แข็งแกร่งในความรู้ทางการแพทย์หลัก
GPT-5 แสดงให้เห็นข้อได้เปรียบที่ชัดเจนในการใช้เหตุผลที่มีพื้นฐานเชิงตัวเลขและการจดจำข้อเท็จจริงในวงกว้าง โมเดลนี้ได้คะแนนสูงสุดใหม่ในเกณฑ์มาตรฐาน HeadQA และ Medbullets และได้ผลลัพธ์ที่เท่ากับที่ดีที่สุดก่อนหน้านี้ใน MedCalc-Bench การปรับปรุงเหล่านี้บ่งชี้ว่า GPT-5 มีความสามารถที่เพิ่มขึ้นในการจัดการกับการคำนวณทางการแพทย์และการดึงข้อเท็จจริงทางการแพทย์ที่ยอมรับแล้ว ซึ่งเป็นความสามารถหลักสำหรับระบบ medical AI ใดๆ
อย่างไรก็ตาม ความก้าวหน้าไม่ได้เป็นไปอย่างสม่ำเสมอในทุกงานทางการแพทย์ ทำให้เกิดคำถามว่านี่เป็นความก้าวหน้าที่แท้จริงหรือเป็นเพียงการเลือกการเพิ่มประสิทธิภาพที่แตกต่างกัน
สรุปผลการประเมิน GPT-5 ด้านการแพทย์:
หมวดหมู่การประเมิน | ประสิทธิภาพ | การทดสอบเฉพาะ |
---|---|---|
ปรับปรุงแล้ว | สถิติใหม่สูงสุด/เสมอ | HeadQA , Medbullets , MedCalc-Bench |
ลดลง | ถดถอย | EHRSQL , RaceBias , MedHallu |
ประสิทธิภาพ | ผลลัพธ์แบบผสม | เร็วขึ้นในงานยาว ช้าลงในคำถามสั้น |
การถดถอยที่น่ากังวลในพื้นที่สำคัญ
การประเมินเผยให้เห็นการลดลงที่น่าตกใจในหลายพื้นที่สำคัญ GPT-5 แสดงการถดถอยในงานการสร้างที่มีข้อจำกัดเชิงโครงสร้างเช่น EHRSQL การใช้เหตุผลที่ละเอียดอ่อนต่อความยุติธรรมรวมถึงสถานการณ์ RaceBias และล้มเหลวในการบรรลุประสิทธิภาพชั้นนำในการยับยั้งภาพหลอนในการทดสอบ MedHallu
การถดถอยเหล่านี้น่ากังวลเป็นพิเศษเมื่อพิจารณาถึงความสำคัญอย่างยิ่งของการจัดการข้อมูลที่มีโครงสร้างและการลดอคติในการใช้งานทางการแพทย์ ผลลัพธ์ที่หลากหลายทำให้ผู้ใช้บางคนตั้งคำถามว่า GPT-5 เป็นตัวแทนของความก้าวหน้าที่แท้จริงหรือการเพิ่มประสิทธิภาพต้นทุนโดยเสียสละความสามารถบางอย่าง
ความขัดแย้งเรื่องการกำหนดค่าและวิธีการทดสอบ
ส่วนสำคัญของการอภิปรายในชุมชนได้มุ่งเน้นไปที่วิธีการทดสอบเอง ผู้ใช้หลายคนสังเกตว่าการประเมินดูเหมือนจะใช้การตั้งค่าเริ่มต้นมากกว่าโหมดความพยายามในการใช้เหตุผลสูงของ GPT-5 ซึ่งอาจส่งผลกระทบต่อประสิทธิภาพอย่างมีนัยสำคัญ โมเดลนี้เสนอการกำหนดค่าหลายแบบรวมถึงระดับความพยายามในการใช้เหตุผลที่แตกต่างกันและตัวแปรพิเศษเช่น GPT-5 mini
ใครก็ตามที่จริงจังเกี่ยวกับการวัดความสามารถของโมเดลจะเลือกการกำหนดค่าที่ดีที่สุด โดยเฉพาะในทางการแพทย์
สิ่งนี้ได้จุดประกายการถกเถียงในวงกว้างเกี่ยวกับวิธีที่โมเดล AI ควรได้รับการประเมินและว่านักวิจัยกำลังสำรวจความสามารถเต็มรูปแบบของระบบใหม่อย่างเพียงพอหรือไม่ก่อนที่จะสรุปผล
รูปแบบและการกำหนดค่าของโมเดล GPT-5:
- GPT-5 Standard: โมเดลพื้นฐานที่มีความพยายามในการใช้เหตุผลระดับกลาง (ค่าเริ่มต้น)
- GPT-5 Mini: รูปแบบที่มีน้ำหนักเบาสำหรับงานที่ง่ายกว่า
- GPT-5 Nano: เวอร์ชันที่กะทัดรัดที่สุด
- ระดับความพยายามในการใช้เหตุผล: มีการกำหนดค่าระดับสูง กลาง และต่ำ
- พารามิเตอร์พิเศษ: การตั้งค่า Temperature ความละเอียดในการตอบ และระดับความพยายามในการใช้เหตุผลส่งผลต่อประสิทธิภาพ
ประสบการณ์ผู้ใช้ในโลกจริงแตกต่างกันอย่างมาก
ข้อเสนอแนะจากชุมชนเผยให้เห็นประสบการณ์ที่แตกต่างกันอย่างมากกับ GPT-5 ในกรณีการใช้งานต่างๆ ในขณะที่ผู้ใช้บางคนรายงานการปรับปรุงที่สำคัญในงานเขียนโค้ดที่ซับซ้อน คนอื่นๆ อธิบายถึงการพบลูปแห่งความตายและปัญหาเชิงระบบที่โมเดลดำเนินการที่ไม่ได้ขอ
ประสิทธิภาพที่ไม่สม่ำเสมอทำให้ผู้เชี่ยวชาญทางการแพทย์บางคนเปลี่ยนไปใช้โมเดลทางเลือกเช่น Grok4 สำหรับคำถามทางการแพทย์ โดยอ้างถึงความกังวลเกี่ยวกับแนวโน้มของ GPT-5 ที่จะระมัดระวังมากเกินไปหรือคลุมเครือเมื่อพูดถึงหัวข้อทางการแพทย์
การแลกเปลี่ยนประสิทธิภาพก่อให้เกิดคำถาม
การประเมินพบรูปแบบประสิทธิภาพที่หลากหลาย โดย GPT-5 ทำงานเร็วขึ้นในงานการใช้เหตุผลที่ยาวขึ้น แต่มีการลงโทษเรื่องความล่าช้าในคำถามที่มีโครงสร้างสั้นโดยไม่มีประโยชน์ด้านความแม่นยำที่สอดคล้องกัน สิ่งนี้บ่งชี้ว่าโมเดลอาจได้รับการเพิ่มประสิทธิภาพสำหรับรูปแบบการใช้งานที่แตกต่างจากรุ่นก่อนหน้า
การแลกเปลี่ยนประสิทธิภาพเหล่านี้สอดคล้องกับการคาดเดาว่า GPT-5 เป็นตัวแทนของการออกแบบต้นทุนมากกว่าความก้าวหน้าด้านความสามารถล้วนๆ ซึ่งอาจอธิบายได้ว่าทำไมความสามารถบางอย่างจึงดีขึ้นในขณะที่อื่นๆ ลดลง
ผลลัพธ์ที่หลากหลายจากการประเมิน medical AI นี้เน้นย้ำถึงความซับซ้อนของการวัดความก้าวหน้าในโมเดลภาษาขนาดใหญ่และเน้นย้ำถึงความสำคัญของการทดสอบที่ครอบคลุมในสถานการณ์ที่หลากหลายก่อนที่จะนำระบบ AI ไปใช้ในการใช้งานที่สำคัญเช่นการดูแลสุขภาพ
อ้างอิง: From GPT-4 to GPT-5: Measuring Progress in Medical Language Understanding Through MedHELM