การรั่วไหลล่าสุดของโมเดล Gemini 3.0 ของ Google ผ่านการทดสอบ A/B ใน Google AI Studio ได้จุดประกายการอภิปรายอย่างร้อนแรงในชุมชนนักพัฒนา แม้ตัวอย่างแรกเริ่มจะแสดงให้เห็นความสามารถอันน่าประทับใจในงานสร้างสรรค์ เช่น การสร้าง SVG แต่ชุมชนก็แตกออกเป็นสองฝ่ายอย่างชัดเจนเกี่ยวกับประสิทธิภาพของโมเดล AI ปัจจุบันในโลกจริง นักพัฒนากำลังแบ่งปันประสบการณ์ที่แตกต่างกันอย่างมากตามกรณีการใช้งานเฉพาะของพวกเขา ซึ่งเผยให้เห็นว่าโมเดล AI ที่ดีที่สุดมักขึ้นอยู่กับสิ่งที่คุณกำลังพยายามจะทำให้สำเร็จ
ขอบเขตความสามารถของ AI ที่ไม่เท่ากัน
ชุมชนนักพัฒนาเผยให้เห็นว่าไม่มีผู้ชนะที่ชัดเจนในการแข่งขันโมเดล AI โดยประสบการณ์แตกต่างกันอย่างมากตามประเภทของงาน สำหรับงานพัฒนาเว็บที่เกี่ยวข้องกับ HTML และ SCSS นักพัฒนาหลายคนรายงานว่าผลลัพธ์จาก Gemini ดีกว่าคู่แข่งอย่างเห็นได้ชัด โมเดลดูเหมือนจะแข็งแกร่งเป็นพิเศษในการทำความเข้าใจและการทำงานภายในกรอบที่มีโครงสร้างชัดเจน เช่น Angular ซึ่งผลลัพธ์ที่สม่ำเสมอของมันสอดคล้องกับรูปแบบการพัฒนาที่เข้มงวด
ฉันพบว่าอย่างสม่ำเสมอว่า Gemini ดีกว่า ChatGPT, Claude และ Deepseek สำหรับงานของฉัน ซึ่งเป็นงานพัฒนาเว็บด้วย html/scss เป็นส่วนใหญ่
อย่างไรก็ตาม ข้อได้เปรียบนี้ไม่ได้ขยายไปถึงงานเขียนโค้ดทั้งหมด สำหรับงานปรับปรุงโค้ดที่ซับซ้อนและพฤติกรรมแบบ Agentic — ที่โมเดลจำเป็นต้องสำรวจฐานโค้ดขนาดใหญ่และทำการเปลี่ยนแปลงอย่างเป็นระบบ — นักพัฒนารายงานอย่างสม่ำเสมอว่า Claude และ GPT 5 ทำได้ดีกว่า Gemini ความสามารถในการเรียกใช้เครื่องมือของโมเดลถูกอธิบายว่ามีบั๊กในสภาพแวดล้อมการพัฒนาเช่น Copilot และ Cursor ซึ่งจำกัดประสิทธิภาพของมันสำหรับเวิร์กโฟลว์การเขียนโปรแกรมบางประเภท
จุดแข็งของโมเดลที่รายงานแยกตามสาขา:
- Gemini 2.5 Pro:
การเขียนเชิงสร้างสรรค์และงานบรรณาธิการ การพัฒนาเว็บ UI/UX (HTML/SCSS, Angular)
ฟิزิกส์เชิงทฤษฎีและการพิสูจน์ทางคณิตศาสตร์ การสรุปเอกสารและหัวข้อทางวิชาการ
การวิเคราะห์บริบทขนาดใหญ่ Claude (Sonnet/Opus):
พฤติกรรมแบบ agentic และการปรับโครงสร้างโค้ดเบส การเขียนสคริปต์ Python
การผสานรวมเครื่องมือ CLI GPT-5 (Thinking/Pro):
การใช้เหตุผลที่ซับซ้อนและแนวคิดแบบ "out-of-the-box" การดึงข้อมูลและงานแบบ "needle in a haystack"
- การค้นหาเว็บอย่างกว้างขวางเพื่อสนับสนุนข้อมูล
จุดแข็งด้านความคิดสร้างสรรค์และการวิเคราะห์ที่แบ่งแยกความเห็น
ความแตกแยกที่โดดเด่นที่สุดปรากฏขึ้นในแอปพลิเคชันด้านความคิดสร้างสรรค์และการวิเคราะห์ ผู้ใช้หลายคนรายงานว่า Gemini 2.5 Pro ไม่มีใครเทียบได้สำหรับงานเขียนเชิงสร้างสรรค์ โดยบางคนถึงขั้นบอกว่ามันเป็นโมเดลเดียวที่ใช้งานได้พอประมาณสำหรับบทกวีและเรื่องสั้น ความสามารถในการทำความเข้าใจการเขียนที่ละเอียดอ่อนและให้คำวิจารณ์ที่มีความหมายของมันโดดเด่นในสาขาที่โมเดลส่วนใหญ่ยังคงดิ้นรนกับความคิดสร้างสรรค์ที่แท้จริง
ในด้านคณิตศาสตร์และทฤษฎี ความเห็นยิ่งแตกออกไปอีก บางผู้ใช้พบว่า Gemini ดีกว่าสำหรับการสร้างบทพิสูจน์ที่สมบูรณ์และถูกต้องในสาขาต่างๆ เช่น พีชคณิตสลับที่และทฤษฎี范畴 ซึ่งน่าจะได้ประโยชน์จากการฝึกฝนเนื้อหาทางเทคนิคอย่างกว้างขวางของมัน แต่อย่างไรก็ตาม บางคนแย้งว่าสำหรับการวิจัยคณิตศาสตร์ที่แท้จริง ความสามารถของ GPT 5 ในการสร้างความคิดที่แปลกใหม่จากทฤษฎีบทที่ไม่คุ้นเคย ทำให้มันมีค่ามากกว่าสำหรับการได้มาซึ่งความเข้าใจที่ก้าวกระโดน แทนที่จะเป็นเพียงการพิสูจน์ที่ถูกต้องเท่านั้น
เวิร์กโฟลว์เชิงปฏิบัติและข้อจำกัด
นักพัฒนาได้สร้างเวิร์กโฟลว์ที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพของจุดแข็งของ Gemini ในขณะเดียวกันก็ลดทอนจุดอ่อนของมัน คอนเท็กซ์วินโดว์ขนาดใหญ่ของโมเดลช่วยให้มีแนวทางที่ไม่เหมือนใคร เช่น การแปลงโค้ดเบสทั้งหมดให้เป็นสตริงสำหรับการวิเคราะห์อย่างครอบคลุม ผู้ใช้บางรายได้ปรับแต่งเทคนิคนี้โดยให้ Gemini สร้างเอกสารเชิงสถาปัตยกรรมก่อน จากนั้นจึงใช้บทสรุปนั้นสำหรับการสนทนาต่อไป — การสร้างดัชนีเมตาดาต้าที่อุดมสมบูรณ์ซึ่งช่วยให้โมเดลใช้เหตุผลได้มีประสิทธิภาพมากขึ้นเกี่ยวกับระบบที่ซับซ้อน
อย่างไรก็ตาม ข้อจำกัดที่สำคัญยังคงมีอยู่ ผู้ใช้รายงานว่า Gemini ประสบกับ context collapse หรือการล่มสลายของบริบทที่ประมาณ 50,000 โทเค็น แม้จะมีความจุทางทฤษฎีถึง 1 ล้านโทเค็น ซึ่งบังคับให้ต้องรีเซ็ตการสนทนาบ่อยครั้ง โมเดลนี้ยังมีชื่อเสียงในเรื่องพฤติกรรมการวนซ้ำ บางครั้งก็ตอบซ้ำคำเดิมเป๊ะๆ แม้จะได้รับคำสั่งอย่างชัดเจนแล้วไม่ให้ทำเช่นนั้น ข้อจำกัดเชิงปฏิบัติเหล่านี้ส่งผลต่อความสามารถในการใช้งานในโลกจริง แม้ความฉลาดพื้นฐานของโมเดลจะดูทัดเทียมกับคู่แข่ง
ข้อจำกัดของ Gemini ที่มีการรายงานบ่อยครั้ง:
พฤติกรรมการเรียกใช้เครื่องมือ (Tool-calling) มีรายงานว่ามีข้อบกพร่องในสภาพแวดล้อมการพัฒนา (Copilot/Cursor) มีรายงานปัญหา Context collapse ที่ประมาณ 50k tokens แม้ว่าจะมีขนาด context window ตามทฤษฎีที่ใหญ่มาก พฤติกรรมการวนซ้ำและการทำซ้ำคำต่อคำอย่างมีนัยสำคัญ การตอบกลับที่ยืดยาวเกินไปและมีลักษณะเอาใจในการตั้งค่าเริ่มต้น
- มีการเซ็นเซอร์มากกว่าคู่แข่งสำหรับหัวข้อทางการแพทย์และหัวข้อที่ละเอียดอ่อนบางประเภท
ข้อได้เปรียบจากการผสานรวมแนวดิ่ง
การผสานรวมแนวดิ่งของ Google ให้ข้อได้เปรียบที่มีศักยภาพแก่ Gemini ซึ่งขยายไปไกลกว่าความสามารถดิบของโมเดล ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุ การที่ Google เป็นบริษัทเดียวในแวดวงโมเดลหลักที่ผสานรวมแนวดิ่งอย่างเต็มที่กับฮาร์ดแวร์ของตัวเอง บ่งชี้ถึงข้อได้เปรียบทางการแข่งขันในระยะยาวด้านราคาและประสิทธิภาพ การผสานรวมนี้ปรากฏให้เห็นแล้วในผลิตภัณฑ์ต่างๆ เช่น โหมด AI ใน Google Search ซึ่งผู้ใช้บางส่วนรายงานว่าทำงานได้ดีกว่าหุ่นยนต์แชท AI โดยเฉพาะสำหรับงานวิจัย เนื่องจากทำการค้นหามากกว่ามากเพื่อการยึดโยงข้อมูลและการสังเคราะห์
ความสัมพันธ์ระหว่างผลิตภัณฑ์ AI ต่างๆ ของ Google ยังคงสร้างความสับสนให้กับผู้ใช้ โดยหลายคนแสดงความไม่แน่ใจเกี่ยวกับเวลาที่ควรใช้ Gemini เทียบกับโหมด AI เทียบกับบริการอื่นๆ ความแตกแยกนี้เน้นย้ำถึงความท้าทายในการใช้ประโยชน์จากความสามารถด้าน AI ของ Google อย่างมีประสิทธิภาพ แม้เทคโนโลยีพื้นฐานจะแสดงให้เห็นถึงศักยภาพ
มองไปที่ Gemini 3.0
ประสบการณ์ที่หลากหลายของชุมชนกับโมเดลปัจจุบันสร้างทั้งความตื่นเต้นและความสงสัยเกี่ยวกับ Gemini 3.0 การรั่วไหลในระยะแรกที่แสดงให้เห็นการสร้าง SVG ที่ซับซ้อนและเกมคลอนที่เล่นได้ บ่งชี้ถึงความก้าวหน้าที่มีความหมายในงานเขียนโค้ดเชิงสร้างสรรค์ อย่างไรก็ตาม ผู้ใช้ที่มีประสบการณ์เตือนไม่ให้ตื่นเต้นมากเกินไปจากการทดสอบ A/B ด้วยพรอมต์เดียว โดยชี้ให้เห็นว่าประสิทธิภาพในโลกจริงเกี่ยวข้องกับปัจจัยที่ซับซ้อน เช่น การประมวลผลหลายไฟล์ การเรียกใช้เครื่องมือ และคุณภาพการสนทนาที่ต่อเนื่อง
ความท้าทายพื้นฐานยังคงอยู่: นักพัฒนาที่แตกต่างกันต้องการความสามารถที่แตกต่างจากผู้ช่วย AI ของพวกเขา โมเดลที่เก่งในการวางแผนโปรเจกต์ใหม่อาจล้มเหลวกับการลงรายละเอียดการนำไปปฏิบัติ ในขณะที่ผู้เชี่ยวชาญด้านการเขียนโค้ดอาจขาดความยืดหยุ่นเชิงสร้างสรรค์ ดังที่นักพัฒนาคนหนึ่งสรุปอย่างสั้นๆ ว่า ขอบเขตความสามารถนั้นไม่เท่ากัน — และความสำเร็จของ Gemini 3.0 จะขึ้นอยู่กับว่ามันสามารถปรับแต่งส่วนไหนของขอบเขตที่ไม่เท่ากันนั้นให้เรียบร้อยสำหรับการใช้งานจริงได้บ้าง
การอภิปรายที่กำลังดำเนินอยู่เผยให้เห็นข้อมูลเกี่ยวกับคุณภาพโมเดลโดยรวมน้อยลง แต่เผยให้เห็นมากขึ้นเกี่ยวกับความต้องการที่หลากหลายของนักพัฒนาในสาขาต่างๆ ขณะที่ความสามารถของ AI ยังคงวิวัฒนาการต่อไป สิ่งสำคัญที่สุดอาจเป็นการทำความเข้าใจว่าโมเดลใดเหมาะกับงานใด — บทเรียนที่ชุมชนกำลังเรียนรู้ผ่านการทดลองอย่างกว้างขวางในโลกจริง