GPT-5 แสดงผลลัพธ์ที่หลากหลายในการทดสอบ AI ทางการแพทย์ ก่อให้เกิดการถกเถียงเรื่องการกำหนดค่าโมเดลและประสิทธิภาพ

ทีมชุมชน BigGo
GPT-5 แสดงผลลัพธ์ที่หลากหลายในการทดสอบ AI ทางการแพทย์ ก่อให้เกิดการถกเถียงเรื่องการกำหนดค่าโมเดลและประสิทธิภาพ

การประเมินใหม่ของ GPT-5 โดยใช้เกณฑ์มาตรฐาน MedHELM medical AI benchmark ได้เผยให้เห็นภาพที่ซับซ้อนของความก้าวหน้าและการถดถอย ทำให้เกิดการอภิปรายอย่างเข้มข้นเกี่ยวกับการเพิ่มประสิทธิภาพโมเดลและวิธีการทดสอบในชุมชน AI

การศึกษานี้ได้รวม GPT-5 เข้ากับ MedHELM ซึ่งเป็นชุดประเมิน medical AI ที่ครอบคลุมและทดสอบความสามารถในด้านการคำนวณทางการแพทย์ การจดจำข้อเท็จจริง การวิเคราะห์หลักฐาน และมาตรการความปลอดภัย แม้ว่าผลลัพธ์จะแสดงให้เห็นการปรับปรุงที่น่าสังเกต แต่ก็ยังเน้นย้ำถึงพื้นที่ที่น่ากังวลซึ่งโมเดลล่าสุดดูเหมือนจะถอยหลัง

ประสิทธิภาพที่แข็งแกร่งในความรู้ทางการแพทย์หลัก

GPT-5 แสดงให้เห็นข้อได้เปรียบที่ชัดเจนในการใช้เหตุผลที่มีพื้นฐานเชิงตัวเลขและการจดจำข้อเท็จจริงในวงกว้าง โมเดลนี้ได้คะแนนสูงสุดใหม่ในเกณฑ์มาตรฐาน HeadQA และ Medbullets และได้ผลลัพธ์ที่เท่ากับที่ดีที่สุดก่อนหน้านี้ใน MedCalc-Bench การปรับปรุงเหล่านี้บ่งชี้ว่า GPT-5 มีความสามารถที่เพิ่มขึ้นในการจัดการกับการคำนวณทางการแพทย์และการดึงข้อเท็จจริงทางการแพทย์ที่ยอมรับแล้ว ซึ่งเป็นความสามารถหลักสำหรับระบบ medical AI ใดๆ

อย่างไรก็ตาม ความก้าวหน้าไม่ได้เป็นไปอย่างสม่ำเสมอในทุกงานทางการแพทย์ ทำให้เกิดคำถามว่านี่เป็นความก้าวหน้าที่แท้จริงหรือเป็นเพียงการเลือกการเพิ่มประสิทธิภาพที่แตกต่างกัน

สรุปผลการประเมิน GPT-5 ด้านการแพทย์:

หมวดหมู่การประเมิน ประสิทธิภาพ การทดสอบเฉพาะ
ปรับปรุงแล้ว สถิติใหม่สูงสุด/เสมอ HeadQA , Medbullets , MedCalc-Bench
ลดลง ถดถอย EHRSQL , RaceBias , MedHallu
ประสิทธิภาพ ผลลัพธ์แบบผสม เร็วขึ้นในงานยาว ช้าลงในคำถามสั้น

การถดถอยที่น่ากังวลในพื้นที่สำคัญ

การประเมินเผยให้เห็นการลดลงที่น่าตกใจในหลายพื้นที่สำคัญ GPT-5 แสดงการถดถอยในงานการสร้างที่มีข้อจำกัดเชิงโครงสร้างเช่น EHRSQL การใช้เหตุผลที่ละเอียดอ่อนต่อความยุติธรรมรวมถึงสถานการณ์ RaceBias และล้มเหลวในการบรรลุประสิทธิภาพชั้นนำในการยับยั้งภาพหลอนในการทดสอบ MedHallu

การถดถอยเหล่านี้น่ากังวลเป็นพิเศษเมื่อพิจารณาถึงความสำคัญอย่างยิ่งของการจัดการข้อมูลที่มีโครงสร้างและการลดอคติในการใช้งานทางการแพทย์ ผลลัพธ์ที่หลากหลายทำให้ผู้ใช้บางคนตั้งคำถามว่า GPT-5 เป็นตัวแทนของความก้าวหน้าที่แท้จริงหรือการเพิ่มประสิทธิภาพต้นทุนโดยเสียสละความสามารถบางอย่าง

ความขัดแย้งเรื่องการกำหนดค่าและวิธีการทดสอบ

ส่วนสำคัญของการอภิปรายในชุมชนได้มุ่งเน้นไปที่วิธีการทดสอบเอง ผู้ใช้หลายคนสังเกตว่าการประเมินดูเหมือนจะใช้การตั้งค่าเริ่มต้นมากกว่าโหมดความพยายามในการใช้เหตุผลสูงของ GPT-5 ซึ่งอาจส่งผลกระทบต่อประสิทธิภาพอย่างมีนัยสำคัญ โมเดลนี้เสนอการกำหนดค่าหลายแบบรวมถึงระดับความพยายามในการใช้เหตุผลที่แตกต่างกันและตัวแปรพิเศษเช่น GPT-5 mini

ใครก็ตามที่จริงจังเกี่ยวกับการวัดความสามารถของโมเดลจะเลือกการกำหนดค่าที่ดีที่สุด โดยเฉพาะในทางการแพทย์

สิ่งนี้ได้จุดประกายการถกเถียงในวงกว้างเกี่ยวกับวิธีที่โมเดล AI ควรได้รับการประเมินและว่านักวิจัยกำลังสำรวจความสามารถเต็มรูปแบบของระบบใหม่อย่างเพียงพอหรือไม่ก่อนที่จะสรุปผล

รูปแบบและการกำหนดค่าของโมเดล GPT-5:

  • GPT-5 Standard: โมเดลพื้นฐานที่มีความพยายามในการใช้เหตุผลระดับกลาง (ค่าเริ่มต้น)
  • GPT-5 Mini: รูปแบบที่มีน้ำหนักเบาสำหรับงานที่ง่ายกว่า
  • GPT-5 Nano: เวอร์ชันที่กะทัดรัดที่สุด
  • ระดับความพยายามในการใช้เหตุผล: มีการกำหนดค่าระดับสูง กลาง และต่ำ
  • พารามิเตอร์พิเศษ: การตั้งค่า Temperature ความละเอียดในการตอบ และระดับความพยายามในการใช้เหตุผลส่งผลต่อประสิทธิภาพ

ประสบการณ์ผู้ใช้ในโลกจริงแตกต่างกันอย่างมาก

ข้อเสนอแนะจากชุมชนเผยให้เห็นประสบการณ์ที่แตกต่างกันอย่างมากกับ GPT-5 ในกรณีการใช้งานต่างๆ ในขณะที่ผู้ใช้บางคนรายงานการปรับปรุงที่สำคัญในงานเขียนโค้ดที่ซับซ้อน คนอื่นๆ อธิบายถึงการพบลูปแห่งความตายและปัญหาเชิงระบบที่โมเดลดำเนินการที่ไม่ได้ขอ

ประสิทธิภาพที่ไม่สม่ำเสมอทำให้ผู้เชี่ยวชาญทางการแพทย์บางคนเปลี่ยนไปใช้โมเดลทางเลือกเช่น Grok4 สำหรับคำถามทางการแพทย์ โดยอ้างถึงความกังวลเกี่ยวกับแนวโน้มของ GPT-5 ที่จะระมัดระวังมากเกินไปหรือคลุมเครือเมื่อพูดถึงหัวข้อทางการแพทย์

การแลกเปลี่ยนประสิทธิภาพก่อให้เกิดคำถาม

การประเมินพบรูปแบบประสิทธิภาพที่หลากหลาย โดย GPT-5 ทำงานเร็วขึ้นในงานการใช้เหตุผลที่ยาวขึ้น แต่มีการลงโทษเรื่องความล่าช้าในคำถามที่มีโครงสร้างสั้นโดยไม่มีประโยชน์ด้านความแม่นยำที่สอดคล้องกัน สิ่งนี้บ่งชี้ว่าโมเดลอาจได้รับการเพิ่มประสิทธิภาพสำหรับรูปแบบการใช้งานที่แตกต่างจากรุ่นก่อนหน้า

การแลกเปลี่ยนประสิทธิภาพเหล่านี้สอดคล้องกับการคาดเดาว่า GPT-5 เป็นตัวแทนของการออกแบบต้นทุนมากกว่าความก้าวหน้าด้านความสามารถล้วนๆ ซึ่งอาจอธิบายได้ว่าทำไมความสามารถบางอย่างจึงดีขึ้นในขณะที่อื่นๆ ลดลง

ผลลัพธ์ที่หลากหลายจากการประเมิน medical AI นี้เน้นย้ำถึงความซับซ้อนของการวัดความก้าวหน้าในโมเดลภาษาขนาดใหญ่และเน้นย้ำถึงความสำคัญของการทดสอบที่ครอบคลุมในสถานการณ์ที่หลากหลายก่อนที่จะนำระบบ AI ไปใช้ในการใช้งานที่สำคัญเช่นการดูแลสุขภาพ

อ้างอิง: From GPT-4 to GPT-5: Measuring Progress in Medical Language Understanding Through MedHELM