ความนิยมถล่มทลายของ Gemini 3 บังคับให้ Google ต้องลดบริการระดับฟรี ขณะที่ AI เปลี่ยนจาก "การสนทนา" สู่ "การลงมือทำ"

ทีมบรรณาธิการ BigGo
ความนิยมถล่มทลายของ Gemini 3 บังคับให้ Google ต้องลดบริการระดับฟรี ขณะที่ AI เปลี่ยนจาก "การสนทนา" สู่ "การลงมือทำ"

Gemini 3 แบบจำลองภาษาขนาดใหญ่ล่าสุดของ Google สร้างความสนใจจากผู้ใช้อย่างล้นหลามนับตั้งแต่เปิดตัวต้นเดือนนี้ จนบริษัทต้องลดระดับการเข้าถึงสำหรับผู้ใช้ระดับฟรี ความต้องการที่เพิ่มสูงขึ้นนี้เกิดขึ้นพร้อมกับการเปลี่ยนแปลงภายในครั้งสำคัญของ Google โดยการยอมรับอย่างตรงไปตรงมาว่าตามหลังคู่แข่งในสนาม AI ได้จุดประกายการปรับโครงสร้างกลยุทธ์การพัฒนาและใช้งานใหม่ทั้งหมด โดยวางตำแหน่ง Gemini ไม่ใช่แค่เป็นตัวแทนสนทนา แต่เป็นรากฐานสำหรับ AI รุ่นใหม่ที่พร้อมลงมือปฏิบัติ

การยอมรับว่าต้องตามเกมให้ทัน

การเดินทางสู่ Gemini 3 เริ่มต้นด้วยช่วงเวลาของความถ่อมตัวในองค์กรที่พบได้ยาก Koray Kavukcuoglu หัวหน้าสถาปนิก AI ของ Google และ CTO ของ DeepMind เปิดเผยอย่างตรงไปตรงมาว่าบริษัทตระหนักดีว่ากำลังตามหลังคู่แข่ง การยอมรับนี้ไม่ใช่สัญญาณของความพ่ายแพ้ แต่เป็นความจำเป็นทางกลยุทธ์ ที่ทำหน้าที่เป็นตัวเร่งปฏิกิริยาสำหรับการรีเซ็ตครั้งใหญ่ แนวทางเดิมของบริษัทที่เน้นการวิจัย แม้จะประสบความสำเร็จในการสร้างโครงการสำคัญอย่าง AlphaGo แต่กลับช้าเกินไปสำหรับการพัฒนาซ้ำอย่างรวดเร็วที่ต้องการในตลาดแบบจำลองภาษาขนาดใหญ่สำหรับผู้ใช้ทั่วไป การยอมรับความจริงข้อนี้คือก้าวแรกที่สำคัญในแผนของ Google ในการกลับมาครองตำแหน่งผู้นำด้าน AI อีกครั้ง

การปรับโครงสร้างระบบเพื่อโลกแห่งหลายสื่อ

หัวใจสำคัญของการออกแบบ Gemini ใหม่คือความมุ่งมั่นอย่างลึกซึ้งต่อการทำงานแบบหลายสื่อ (multimodality) ไม่ใช่ในฐานะคุณสมบัติเสริม แต่เป็นหลักการพื้นฐานของโครงสร้างระบบ Kavukcuoglu อธิบายว่าปัญญาประดิษฐ์ไม่สามารถเป็นแบบเส้นตรงได้ เพราะโลกที่มันพยายามจะเข้าใจนั้นไม่ใช่เชิงเส้น แบบจำลองนี้ถูกสร้างขึ้นตั้งแต่พื้นฐานเพื่อประมวลผลข้อความ ภาพ เสียง และวิดีโอร่วมกันภายในระบบเดียว ซึ่งเกี่ยวข้องกับการปรับเปลี่ยนวิธีการสร้างโทเคน (tokenization) การสูญเสียระหว่างฝึกฝน (training losses) และเส้นทางการปรับให้เหมาะสม (optimization paths) ใหม่ทั้งหมด ผลลัพธ์ที่ได้คือแบบจำลองที่เก่งกาจในงานข้ามสื่อที่ซับซ้อน เช่น การทำความเข้าใจเอกสารและการวิเคราะห์แผนภูมิ ก้าวข้ามไปกว่ามาตรวัดอย่างง่ายของคุณภาพการสร้างภาพ สู่ความเข้าใจที่ลึกซึ้งและบูรณาการมากขึ้น

การปรับโครงสร้างองค์กรเพื่อความเร็ว

บางทีการเปลี่ยนแปลงที่สำคัญที่สุดเบื้องหลังความก้าวหน้าอย่างรวดเร็วของ Gemini คือการเขียนระเบียบวิธีทางองค์กรของ Google ใหม่ทั้งหมด บริษัทได้รื้อถอนระบบการทำงานแบบเดิมที่เป็นลำดับขั้นตอน โดยที่ทีมวิจัย วิศวกรรม ผลิตภัณฑ์ และความปลอดภัยทำงานตามลำดับ สำหรับ Gemini 3 กลุ่มเหล่านี้ถูกปรับโครงสร้างใหม่ให้เป็นระบบคู่ขนาน ผู้จัดการผลิตภัณฑ์มีส่วนร่วมตั้งแต่วันแรกของการฝึกฝน วิศวกรทำงานเพื่อปรับใช้พร้อมกันไปเลย และโปรโตคอลด้านความปลอดภัยถูกฝังตลอดกระบวนการทำงานทั้งหมด การแตกหักจากการทำงานแบบแยกส่วนนี้ทำให้ Google เร่งวงจรการพัฒนาซ้ำได้อย่างมากในที่สุด โดยสามารถตามจังหวะความเร็วของคู่แข่งได้ทัน และผลิตแบบจำลองที่มีความเสถียรและใช้งานได้ในสถานการณ์จริง

ความต้องการถล่มทลาย กดดันการเข้าถึงฟรี

ความสำเร็จของการเปลี่ยนกลยุทธ์ครั้งนี้เห็นได้ชัดจากปฏิกิริยาของผู้ใช้ที่ล้นหลาม ความต้องการใช้ Gemini 3 สูงมากจน Google ต้องลดขีดจำกัดการใช้งานสำหรับผู้ใช้ในแผนฟรี โดยในตอนแรก บัญชีฟรีสามารถเข้าถึง "สูงสุด 5 คำสั่ง/พรอมต์ ต่อวัน" สำหรับโมเดล Gemini หลัก และ "สูงสุด 3 ภาพ/วัน" สำหรับโมเดลสร้างภาพ Nano Banano Pro เนื่องจากภาระงานของเซิร์ฟเวอร์ ขีดจำกัดเหล่านี้ตอนนี้ถูกลดลงเหลือระดับ "การเข้าถึงพื้นฐาน" ที่มีความแปรผันมากขึ้น โดยขีดจำกัดรายวันอาจเปลี่ยนแปลงบ่อยครั้ง การเข้าถึง Nano Banano Pro สำหรับผู้ใช้ฟรีถูกตัดเหลือ 2 ภาพต่อวัน ความต้องการสูงนี้ยังทำให้ Google ต้องพักการเข้าถึงฟีเจอร์ใหม่ที่ใช้ Nano Banano Pro ใน NotebookLM สำหรับผู้ใช้ฟรีชั่วคราวอีกด้วย

การเปลี่ยนผ่านจากความฉลาดด้านภาษา สู่ความฉลาดในการลงมือทำ

เมื่อมองไปข้างหน้า Kavukcuoglu วางกรอบขั้นต่อไปของการแข่งขัน AI ไม่ใช่การต่อสู้เพื่อการสนทนาที่ดีขึ้น แต่เพื่อการทำงานให้สำเร็จที่เหนือกว่า เป้าหมายสำหรับ Gemini คือการวิวัฒนาการไปสู่ "ระบบปฏิบัติการสำหรับงาน" ที่สามารถจัดการเวิร์กโฟลว์หลายขั้นตอน อัตโนมัติเครื่องมือสำหรับนักพัฒนา และขับเคลื่อนความฉลาดในระดับระบบทั่วทั้ง Android, Chrome และ Workspace วิสัยทัศน์นี้หมายถึงการเปลี่ยนผ่านที่สำคัญจาก AI ในฐานะผลิตภัณฑ์สำหรับการสนทนา สู่ AI ในฐานะแพลตฟอร์มสำหรับการลงมือทำ ซึ่งเป็นการเปลี่ยนแปลงที่มีศักยภาพทางการค้าและคุณค่าในระยะยาวที่มากกว่ามากอย่างมีนัยสำคัญ สำหรับผู้ใช้แล้ว นี่หมายความว่าการปรับปรุงของ Gemini จะถูกวัดมากขึ้นเรื่อยๆ ด้วยความสามารถในการปฏิบัติตามคำสั่งและบรรลุเป้าหมาย ไม่ใช่เพียงแค่ตอบคำถาม

โครงสร้างพื้นฐานคือข้อได้เปรียบที่มองไม่เห็น

ในขณะที่ขีดความสามารถของโมเดลเป็นสิ่งที่ถูกพูดถึง Kavukcuoglu เน้นย้ำว่าข้อได้เปรียบที่แท้จริงของ Google อยู่ที่โครงสร้างพื้นฐานของบริษัท เครือข่าย TPU ศูนย์ข้อมูลระดับโลก และกรอบความปลอดภัยที่ครบครันของบริษัท เมื่อรวมกับพลังการกระจายตัวของผลิตภัณฑ์อย่าง Search และ Android แล้ว สิ่งนี้สร้างเอฟเฟกต์เครือข่ายที่ทำซ้ำได้ยาก การปรับใช้ Gemini อย่างรวดเร็วทั่วทั้งเมทริกซ์ผลิตภัณฑ์ของ Google ในวันเปิดตัวคือข้อพิสูจน์ถึงความแข็งแกร่งนี้ ปัญหาการขยายขนาดในปัจจุบัน แม้จะสร้างความไม่สะดวกให้ผู้ใช้ฟรี แต่ก็ยังเน้นย้ำถึงโครงสร้างพื้นฐานขนาดมหึมาที่จำเป็นต้องใช้เพื่อสนับสนุนโมเดลระดับนี้ในสเกลโลก Google คาดการณ์ว่าด้วยช่วงพีคของเทศกาลวันหยุดในสหรัฐอเมริกาและคริสต์มาสที่เหลืออีกเพียงไม่กี่สัปดาห์ ภาระงานของเซิร์ฟเวอร์อาจยังคงสูงจนถึงต้นเดือนมกราคม ซึ่งเมื่อถึงเวลานั้น ขีดจำกัดเดิมอาจจะถูกนำกลับมาใช้ใหม่