การอัปเดตโมเดล Gemini ของ Google จุดประกายการถ่ายเทในชุมชนเรื่องปัญหาความน่าเชื่อถือและหมายเลขเวอร์ชันที่สับสน

ทีมชุมชน BigGo
การอัปเดตโมเดล Gemini ของ Google จุดประกายการถ่ายเทในชุมชนเรื่องปัญหาความน่าเชื่อถือและหมายเลขเวอร์ชันที่สับสน

Google ได้เปิดตัวเวอร์ชันอัปเดตของโมเดล Gemini 2.5 Flash และ Flash-Lite โดยสัญญาว่าจะมีประสิทธิภาพและความคล่องตัวที่ดีขึ้น อย่างไรก็ตาม การตอบสนองของชุมชนเทคโนโลยีเผยให้เห็นความกังวลอย่างต่อเนื่องเกี่ยวกับปัญหาความน่าเชื่อถือและแนวทางการตั้งชื่อที่สับสน ซึ่งบดบังการปรับปรุงด้านเทคนิค

การประกาศเปิดตัวโมเดล Gemini 25 Flash และ Flash-Lite รุ่นล่าสุด แสดงให้เห็นความก้าวหน้าล่าสุดในเทคโนโลยี AI
การประกาศเปิดตัวโมเดล Gemini 25 Flash และ Flash-Lite รุ่นล่าสุด แสดงให้เห็นความก้าวหน้าล่าสุดในเทคโนโลยี AI

ปัญหาความน่าเชื่อถือที่ยังคงอยู่ทำให้ผู้ใช้หงุดหงิด

แม้จะมีการอัปเกรดประสิทธิภาพ แต่ผู้ใช้รายงานว่าโมเดล Gemini ยังคงประสบปัญหาข้อบกพร่องที่สำคัญ คือ การตอบกลับที่หยุดกะทันหันกลางประโยค ปัญหานี้ไม่เกี่ยวข้องกับข้อจำกัดของ token หรือตัวกรองเนื้อหา แต่ดูเหมือนจะเป็นบั๊กในวิธีที่โมเดลส่งสัญญาณการเสร็จสิ้น ปัญหานี้ได้รับการบันทึกไว้ใน GitHub และฟอรัมนักพัฒนาเป็นเวลาหลายเดือนในฐานะปัญหาระดับความสำคัญ 2 แต่ยังคงไม่ได้รับการแก้ไข

ความกังวลด้านความน่าเชื่อถือขยายไปเกินกว่าการตอบกลับที่ถูกตัดทอน ผู้ใช้อธิบายถึงประสิทธิภาพที่ไม่สม่ำเสมอ ทำให้ Gemini รู้สึกเหมือนเสียเมื่อเปรียบเทียบกับคู่แข่งอย่าง Claude และ GPT-4 แม้ว่าคุณภาพของการตอบกลับที่สมบูรณ์จะสามารถแข่งขันได้ก็ตาม สิ่งนี้สร้างประสบการณ์การใช้งานที่น่าหงุดหงิด ซึ่งนักพัฒนาต้องกระตุ้นโมเดลอย่างต่อเนื่องเพื่อให้ทำความคิดที่ไม่สมบูรณ์ต่อไป

ปัญหาทางเทคนิคที่สำคัญ

  • ข้อบกพร่องการตัดทอนการตอบสนองที่เกิดขึ้นอย่างต่อเนื่อง (บันทึกเป็นปัญหา P2 บน GitHub )
  • การตอบสนองหยุดกลางประโยคโดยไม่เกี่ยวข้องกับขีดจำกัดของ token หรือตัวกรองเนื้อหา
  • ประสิทธิภาพที่ไม่สม่ำเสมอส่งผลกระทบต่อความน่าเชื่อถือในสภาพแวดล้อมการใช้งานจริง
  • ปัญหาเกี่ยวกับฟังก์ชัน UI พื้นฐาน เช่น การเลื่อนหน้าจอใน AI Studio
  • ปัญหาการเน้นไวยากรณ์ในอินเทอร์เฟซเว็บ

ความสับสนในการตั้งชื่อเวอร์ชันดึงดูดการวิพากษ์วิจารณ์จากอุตสาหกรรม

ชุมชนได้แสดงความหงุดหงิดอย่างมากต่อแนวทางของ Google ในการจัดการเวอร์ชันโมเดล แทนที่จะเพิ่มหมายเลขเวอร์ชันสำหรับการอัปเดต Google ยังคงใช้ 2.5 ขณะเดียวกันก็เพิ่มตัวระบุที่ซับซ้อนตามวันที่ เช่น gemini-2.5-flash-preview-09-2025 แนวทางปฏิบัตินี้ทำให้นักพัฒนาติดตามการเปลี่ยนแปลงและจัดการเวิร์กโฟลว์ได้ยาก

หมายเลขเวอร์ชันกลายเป็นสิ่งที่ไร้ประโยชน์ด้วยนโยบายแบบนั้น

ความสับสนยิ่งทวีความรุนแรงขึ้นด้วยการแนะนำ -latest aliases ของ Google ซึ่งชี้ไปยังเวอร์ชันโมเดลใหม่ล่าสุดโดยอัตโนมัติ แม้ว่าจะมีเจตนาเพื่อทำให้การเข้าถึงง่ายขึ้น แต่แนวทางนี้ทำให้เกิดความกังวลเกี่ยวกับการเปลี่ยนแปลงพฤติกรรมที่ไม่คาดคิดในแอปพลิเคชันที่ใช้งานจริง Google สัญญาว่าจะแจ้งล่วงหน้าสองสัปดาห์ก่อนการอัปเดต แต่นักพัฒนาหลายคนชอบความเสถียรของหมายเลขเวอร์ชันที่คงที่

ตัวระบุโมเดลและการเข้าถึง

  • เวอร์ชันพรีวิวใหม่: gemini-2.5-flash-preview-09-2025 และ gemini-2.5-flash-lite-preview-09-2025
  • นามแฝงล่าสุด: gemini-flash-latest และ gemini-flash-lite-latest
  • เวอร์ชันเสถียร: gemini-2.5-flash และ gemini-2.5-flash-lite
  • พร้อมใช้งานบน: Google AI Studio และ Vertex AI

การปรับปรุงประสิทธิภาพแสดงให้เห็นแนวโน้มที่ดีแม้จะมีปัญหา

การปรับปรุงด้านเทคนิคในการอัปเดตเหล่านี้น่าสนใจ Gemini 2.5 Flash-Lite มุ่งเน้นไปที่การปฏิบัติตามคำสั่งที่ดีขึ้น การลดความฟุ่มเฟือย และความสามารถ multimodal ที่แข็งแกร่งขึ้น โมเดล Flash แสดงการปรับปรุง 5% ใน SWE-Bench Verified benchmark (จาก 48.9% เป็น 54%) และแสดงการใช้เครื่องมือที่ดีขึ้นสำหรับแอปพลิเคชันที่ซับซ้อน

ผู้ใช้รายงานว่า Gemini เป็นเลิศในพื้นที่เฉพาะ เช่น การใช้เหตุผลในบริบทยาว การจดจำภาพ และการสนับสนุนหลายภาษา ความคุ้มค่าของโมเดลทำให้มันน่าสนใจสำหรับแอปพลิเคชันที่มีปริมาณสูง โดยผู้ใช้บางคนบรรลุประสิทธิภาพ output token ที่ดีขึ้น 24% ถึง 50%

การปรับปรุงประสิทธิภาพ

  • เบนช์มาร์ก SWE-Bench Verified : 48.9% → 54% (ปรับปรุงขึ้น 5%)
  • ประสิทธิภาพ output token : ปรับปรุงขึ้น 24% ถึง 50%
  • ลดเวลาในการตอบสนองสำหรับแอปพลิเคชันที่มีปริมาณการใช้งานสูง
  • การปฏิบัติตามคำสั่งที่ดีขึ้นและลดความฟุ่มเฟือยใน Flash-Lite
  • ความสามารถแบบมัลติโมดัลที่เพิ่มขึ้น รวมถึงการถอดเสียงเป็นข้อความและการเข้าใจภาพ
กราฟการกระจายเปรียบเทียบ Gemini 25 เวอร์ชันต่างๆ โดยอิงจากดัชนีความฉลาดและประสิทธิภาพเวลาตอบสนอง
กราฟการกระจายเปรียบเทียบ Gemini 25 เวอร์ชันต่างๆ โดยอิงจากดัชนีความฉลาดและประสิทธิภาพเวลาตอบสนอง

ตำแหน่งในตลาดยังคงแข่งขันได้แม้จะมีความท้าทาย

การอภิปรายในชุมชนเผยให้เห็นว่า Gemini 2.5 Flash ได้กลายเป็นโมเดลหลักของผู้ใช้หลายคนสำหรับงานบางประเภท โดยเฉพาะการประมวลผลภาพและ structured outputs ความเร็วและข้อได้เปรียบด้านราคาเหนือคู่แข่งอย่างโมเดล OpenAI และ Anthropic ทำให้มันได้รับความนิยมสำหรับแอปพลิเคชันที่ปัญหาความน่าเชื่อถือสามารถจัดการได้ผ่านการจัดการข้อผิดพลาดที่เหมาะสม

อย่างไรก็ตาม ปัญหาทางเทคนิคที่ยังคงอยู่และแนวทางการจัดการเวอร์ชันที่สับสนเน้นย้ำถึงช่องว่างระหว่างความสามารถทางเทคนิคของ Google และการดำเนินการประสบการณ์ผู้ใช้ แม้ว่าเทคโนโลยีพื้นฐานจะแสดงให้เห็นแนวโน้มที่ดี แต่ปัญหาการดำเนินงานเหล่านี้ยังคงจำกัดการยอมรับ Gemini อย่างกว้างขวางในสภาพแวดล้อมการใช้งานจริงที่ความสม่ำเสมอเป็นสิ่งสำคัญ

การอัปเดตเหล่านี้แสดงถึงความก้าวหน้าแบบค่อยเป็นค่อยไป แต่การมุ่งเน้นของชุมชนไปที่ความกังวลด้านความน่าเชื่อถือและการใช้งานขั้นพื้นฐานบ่งบอกว่า Google จำเป็นต้องแก้ไขปัญหาพื้นฐานเหล่านี้ก่อนที่ผู้ใช้จะยอมรับความสามารถขั้นสูงของแพลตฟอร์มอย่างเต็มที่

อ้างอิง: Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release