นักพัฒนาคนหนึ่งได้ยกประเด็นความกังวลอย่างจริงจังเกี่ยวกับความเสถียรของโมเดลภาษา OpenAI ของ Azure โดยอ้างว่าคำสั่งที่เหมือนกันกำลังให้ผลลัพธ์ที่แย่ลงเรื่อยๆ เมื่อเวลาผ่านไป นักพัฒนาที่ทำการทดสอบระบบของตนเป็นเวลา 6 เดือนภายใต้สภาวะที่ควบคุมได้ รายงานว่าประสิทธิภาพของโมเดลได้ลดลงอย่างมีนัยสำคัญโดยไม่มีการเปลี่ยนแปลงใดๆ ในโค้ดหรือคำสั่งของพวกเขา
การทดสอบอย่างเป็นระบบเผยให้เห็นประสิทธิภาพที่ลดลง
นักพัฒนาได้ใช้ระบบการทดสอบที่เข้มงวดโดยใช้ข้อความที่เหมือนกันกับการตั้งค่าอุณหภูมิเป็นศูนย์เพื่อให้แน่ใจว่าจะได้การตอบสนองที่สม่ำเสมอ วิธีการนี้ในทางทฤษฎีควรจะให้ผลลัพธ์ที่เหมือนกันเกือบทุกครั้ง อย่างไรก็ตาม ข้อมูลของพวกเขาแสดงให้เห็นว่าความแม่นยำของ GPT-4o-mini ได้เสื่อมลงอย่างเห็นได้ชัดนับตั้งแต่การเปิดตัว GPT-5 ในขณะที่โมเดล GPT-5 ใหม่ แม้จะมีประสิทธิภาพดีกว่าในตอนแรก แต่กลับประสบปัญหาความเร็วร้ายแรงโดยมีเวลาตอบสนองสูงถึง 20 วินาที
การอภิปรายในชุมชนเผยให้เห็นว่านี่ไม่ใช่เหตุการณ์ที่เกิดขึ้นเพียงครั้งเดียว ผู้ใช้หลายคนรายงานประสบการณ์ที่คล้ายกันในผู้ให้บริการ AI ต่างๆ รวมถึง Gemini ของ Google และ Claude ของ Anthropic นักพัฒนาบางคนต้องข้ามการอัปเดตโมเดลทั้งหมดเพราะเวอร์ชันใหม่ไม่สามารถทำงานที่เวอร์ชันก่อนหน้าทำได้สำเร็จ
ปัญหาประสิทธิภาพที่รายงาน:
- GPT-4o-mini: ความแม่นยำลดลงหลังจาก GPT-5 เปิดตัว
- โมเดล GPT-5: ความแม่นยำดีขึ้นแต่เวลาตอบสนองนานถึง 20 วินาที
- วิธีการทดสอบ: ใช้คำสั่งเดียวกันกับอุณหภูมิ 0 เป็นเวลา 6 เดือน
- พบรูปแบบการเสื่อมสภาพที่สม่ำเสมอในผู้ให้บริการ AI หลายราย
การเปลี่ยนแปลงที่ซ่อนอยู่เบื้องหลัง
คำอธิบายทางเทคนิคหลายประการได้เกิดขึ้นจากการอภิปรายในชุมชน ทฤษฎีที่โดดเด่นที่สุดเกี่ยวข้องกับ quantization ซึ่งเป็นกระบวนการที่โมเดลถูกบีบอัดเพื่อลดต้นทุนการคำนวณ ซึ่งอาจส่งผลต่อความแม่นยำ แม้ว่า OpenAI เคยกล่าวไว้ก่อนหน้านี้ว่าพวกเขาไม่เปลี่ยนแปลงน้ำหนักโมเดลหลังจากเปิดตัว สมาชิกในชุมชนแนะนำว่าการเปลี่ยนแปลงโครงสร้างพื้นฐาน ฟิลเตอร์ความปลอดภัยเพิ่มเติม หรือการแก้ไขคำสั่งระบบสามารถเปลี่ยนแปลงพฤติกรรมของโมเดลได้อย่างมีประสิทธิภาพโดยไม่ต้องเปลี่ยนแปลงโมเดลหลักในทางเทคนิค
เป็นการไม่ซื่อสัตย์ของบริษัทที่จะบอกว่าพวกเขาไม่ได้เปลี่ยนแปลงโมเดลในขณะที่ดำเนินการปรับปรุงต้นทุนดังกล่าวที่ทำให้ความฉลาดที่มีประสิทธิภาพของโมเดลลดลง
ชั้นความปลอดภัยเพิ่มเติมของ Microsoft สำหรับโมเดลที่โฮสต์บน Azure อาจมีส่วนทำให้เกิดความแตกต่างของประสิทธิภาพเมื่อเปรียบเทียบกับ API โดยตรงของ OpenAI ชั้น Responsible AI processing เหล่านี้ แม้จะมีค่าสำหรับข้อกำหนดความปลอดภัยขององค์กร แต่อาจทำให้เกิดโอเวอร์เฮดหรือการกรองเพิ่มเติมที่ส่งผลต่อคุณภาพของผลลัพธ์
สาเหตุที่เป็นไปได้ที่ชุมชนระบุ:
- Quantization: การบีบอัดโมเดลเพื่อลดต้นทุนการคำนวณ
- การเปลี่ยนแปลงโครงสร้างพื้นฐาน: ความไม่เสถียรเชิงตัวเลขและข้อผิดพลาดในการคำนวณ
- ตัวกรองความปลอดภัยเพิ่มเติม: ชั้นการประมวลผล Responsible AI ของ Microsoft
- การปรับเปลี่ยนระบบพรอมต์: การเพิ่มข้อกำหนดทางกฎหมายและธุรกิจ
- การจัดสรรทรัพยากร: การมอบหมายพลังการคำนวณที่น้อยลงให้กับโมเดลรุ่นเก่า
แรงผลักดันที่เพิ่มขึ้นสู่โมเดลท้องถิ่น
การลดลงของคุณภาพที่รายงานกำลังผลักดันให้นักพัฒนาบางคนพิจารณาการติดตั้งโมเดลท้องถิ่นใหม่ แม้ว่าการรันโมเดลท้องถิ่นก่อนหน้านี้จะถูกมองว่าแพงและช้า แต่การรับรู้เรื่องการทำให้โมเดลบนคลาวด์อ่อนแอลงกำลังทำให้โซลูชันที่โฮสต์เองน่าสนใจมากขึ้น โมเดลท้องถิ่นให้การควบคุมอย่างสมบูรณ์เหนือเวอร์ชันโมเดลและขจัดความกังวลเกี่ยวกับการเปลี่ยนแปลงที่ไม่เปิดเผยต่อพฤติกรรมของโมเดล
สถานการณ์นี้เน้นย้ำถึงความท้าทายพื้นฐานในอุตสาหกรรม AI นั่นคือการสร้างสมดุลระหว่างการปรับปรุงต้นทุน ข้อกำหนดความปลอดภัย และความสม่ำเสมอของประสิทธิภาพ ในขณะที่บริษัทต่างๆ พยายามลดต้นทุนการดำเนินงานในขณะที่รักษาราคาที่แข่งขันได้ ผู้ใช้กังวลว่าคุณภาพของโมเดลกลายเป็นตัวแปรที่ซ่อนอยู่ในสมการนี้
หากไม่มีการกำหนดเวอร์ชันที่โปร่งใสและการสื่อสารที่ชัดเจนเกี่ยวกับการเปลี่ยนแปลงโครงสร้างพื้นฐาน นักพัฒนาจะต้องเผชิญกับความไม่แน่นอนเกี่ยวกับความเสถียรของแอปพลิเคชันที่ขับเคลื่อนด้วย AI ของพวกเขา การขาดความโปร่งใสนี้อาจผลักดันให้ธุรกิจต่างๆ หันไปใช้ทางเลือกโอเพ่นซอร์สมากขึ้น ซึ่งพฤติกรรมของโมเดลยังคงคาดเดาได้และตรวจสอบได้
อ้างอิง: The LLM Lobotomy.