การขึ้นราคา Gemini Flash ของ Google จุดประกายการถ่ายเทเรื่องความเป็นจริงของต้นทุน AI

ทีมชุมชน BigGo
การขึ้นราคา Gemini Flash ของ Google จุดประกายการถ่ายเทเรื่องความเป็นจริงของต้นทุน AI

Google เพิ่งทำการเคลื่อนไหวที่น่าประหลาดใจซึ่งทำให้นักพัฒนา AI หลายคนต้องตกใจ บริษัทเทคโนโลยียักษ์ใหญ่นี้ได้เพิ่มราคาอย่างมีนัยสำคัญสำหรับโมเดล Gemini 2.5 Flash ที่ได้รับความนิยม ซึ่งเป็นครั้งแรกที่ผู้ให้บริการ AI รายใหญ่ได้ขึ้นราคาโมเดลที่มีอยู่แล้ว การตัดสินใจนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนนักพัฒนาเกี่ยวกับว่าเราได้มาถึงจุดสิ้นสุดของ AI ราคาถูกแล้วหรือไม่

การกระโดดขึ้นของราคาที่เริ่มต้นทุกอย่าง

การเปลี่ยนแปลงราคามีนัยสำคัญมาก ต้นทุน input token เพิ่มขึ้นเป็นสองเท่าจาก 0.125 เหรียญสหรัฐ เป็น 0.25 เหรียญสหรัฐ ต่อล้าน token ในขณะที่ราคา output เพิ่มขึ้นมากกว่าสี่เท่าจาก 0.60 เหรียญสหรัฐ เป็น 2.50 เหรียญสหรัฐ ต่อล้าน token อย่างไรก็ตาม สถานการณ์มีความซับซ้อนมากกว่าที่ปรากฏในตอนแรก สมาชิกชุมชนได้ชี้ให้เห็นอย่างรวดเร็วว่า Google เคยเสนอ Flash สองเวอร์ชัน - หนึ่งเวอร์ชันมี thinking mode และอีกเวอร์ชันไม่มี การกำหนดราคาใหม่นี้ได้ยกเลิกเวอร์ชันที่ไม่มี thinking ซึ่งราคาถูกกว่าทั้งหมด

ผู้ใช้บางคนพบว่าการเปลี่ยนแปลงนี้น่าหงุดหงิดเป็นพิเศษ นักพัฒนาคนหนึ่งสังเกตว่าฟีเจอร์ thinking มักจะติดอยู่ในลูป โดยคิดใหม่จนกว่าจะถึงขีดจำกัด token โดยไม่ได้สร้างข้อมูลเชิงลึกที่มีความหมาย สิ่งนี้ทำให้เกิดความกังวลเกี่ยวกับการจ่ายราคาที่สูงขึ้นสำหรับฟีเจอร์ที่ไม่ได้เพิ่มคุณค่าเสมอไป

การเปลี่ยนแปลงราคา Gemini 2.5 Flash

  • โทเค็นอินพุต: $0.125 → $0.25 ต่อล้านโทเค็น (เพิ่มขึ้น 100%)
  • โทเค็นเอาต์พุต: $0.60 → $2.50 ต่อล้านโทเค็น (เพิ่มขึ้น 317%)
  • เปิดตัว Gemini 2.5 Flash Lite ใหม่ในราคาที่ต่ำกว่า

เหตุใดการกำหนดราคาแบบเชิงเส้นจึงไม่ตรงกับต้นทุนแบบกำลังสอง

ปัญหาหลักอยู่ที่วิธีการทำงานของโมเดล AI จริงๆ เทียบกับวิธีการกำหนดราคา โมเดลภาษาขนาดใหญ่มีต้นทุนการคำนวณแบบกำลังสอง - เมื่อความยาวของลำดับเพิ่มขึ้น พลังการประมวลผลที่ต้องการจะเติบโตแบบเอ็กซ์โพเนนเชียล แต่ผู้ให้บริการเรียกเก็บเงินจากลูกค้าในอัตราคงที่ต่อ token ทำให้เกิดความไม่สอดคล้องกันระหว่างต้นทุนจริงและการกำหนดราคา

ลองนึกถึงปั๊มน้ำมันที่การซื้อน้ำมันสิบแกลลอนในครั้งเดียวทำให้สถานีต้องเสียค่าใช้จ่ายต่อแกลลอนมากกว่าการขายหนึ่งแกลลอนในแต่ละครั้ง ในที่สุดการซื้อจำนวนมากจะทำให้สถานีขาดทุน ผู้ให้บริการ AI เผชิญกับความท้าทายที่คล้ายกันเมื่อลูกค้าใช้โมเดลสำหรับงานที่มี input ยาวและ output สั้น เช่น การสรุปเอกสาร

ต้นทุนแบบกำลังสองหมายถึงความต้องการการคำนวณที่เพิ่มขึ้นตามกำลังสองของขนาด input หมายความว่า input สองเท่าต้องใช้พลังการประมวลผลสี่เท่า

โครงสร้างต้นทุนทางเทคนิค

  • ต้นทุนของ LLM เพิ่มขึ้นแบบกำลังสอง (O(n²)) ตามความยาวของลำดับ
  • ผู้ให้บริการคิดราคาแบบเชิงเส้นต่อโทเค็น
  • ขั้นตอน Prefill: ประมวลผลโทเค็นอินพุตแบบขนาน (เน้นการคำนวณ)
  • ขั้นตอน Decode: สร้างโทเค็นเอาต์พุตแบบอนุกรม (จำกัดด้วยแบนด์วิดท์หน่วยความจำ)

ความสงสัยของชุมชนเกี่ยวกับการสิ้นสุดของกฎของ Moore

หลายคนในชุมชนนักพัฒนายังคงสงสัยเกี่ยวกับการอ้างว่าการลดต้นทุน AI กำลังจะสิ้นสุดลง พวกเขาชี้ไปที่ตัวอย่างล่าสุดเช่นการลดราคา 80% ของโมเดล o3 ของ OpenAI เมื่อไม่กี่สัปดาห์ที่ผ่านมาเป็นหลักฐานว่ายังมีการปรับปรุงที่สำคัญเป็นไปได้ อัตราการปรับปรุงฮาร์ดแวร์และซอฟต์แวร์ที่รวดเร็วแสดงให้เห็นว่ายังมีพื้นที่สำหรับการลดต้นทุน

แม้ว่าราคาจะลดลงมากในช่วง 3 ปีที่ผ่านมา ฉันคิดว่ายังมีพื้นที่ให้ราคาลดลงต่อไป ฉันคาดว่ายังมีการปรับปรุงอีกมากมายที่ยังไม่ได้ถูกค้นพบ ทั้งในด้านซอฟต์แวร์และฮาร์ดแวร์

นักพัฒนาบางคนโต้แย้งว่านี่เป็นเพียง Google ที่ใช้ประโยชน์จากความนิยมที่เพิ่มขึ้นของ Gemini มากกว่าการเผชิญกับอุปสรรคต้นทุนพื้นฐาน จนกระทั่งเมื่อไม่นานมานี้ Gemini ถูกมองว่าเป็นรองเมื่อเทียบกับ ChatGPT และ Claude ตอนนี้ที่ได้รับการยอมรับแล้ว Google อาจรู้สึกสบายใจที่จะเรียกเก็บอัตราตลาดแทนที่จะเสนอราคาส่งเสริมการขาย

บริบทของตลาด

  • ผู้ให้บริการรายใหญ่รายแรกที่ขึ้นราคาในโมเดลที่เปิดตัวแล้ว
  • OpenAI เพิ่งลดราคา o3 ลง 80%
  • DeepSeek V3 อ้างว่ามีกำไรขั้นต้น 80% ที่ราคา $0.27/$1.10
  • Google เคยเสนอราคาโปรโมชั่น $0.00 สำหรับโมเดลตัวอย่างก่อนหน้านี้

ความเป็นจริงทางธุรกิจเบื้องหลังเรื่องราวทางเทคนิค

สมาชิกชุมชนหลายคนสังเกตว่า Google เป็นบริษัทที่จดทะเบียนในตลาดหลักทรัพย์ที่มีภาระผูกพันต่อผู้ถือหุ้น ซึ่งแตกต่างจากคู่แข่งบางรายที่อาจดำเนินการขาดทุนเพื่อได้ส่วนแบ่งตลาด แรงกดดันทางธุรกิจนี้อาจอธิบายการปรับราคามากกว่าข้อจำกัดทางเทคนิค

การเปิดตัว Gemini 2.5 Flash Lite ในราคาที่ต่ำกว่าสนับสนุนทฤษฎีนี้ เป็นกลยุทธ์การแบ่งส่วนตลาดแบบคลาสสิก - หากคุณต้องการราคาที่ต่ำที่สุด คุณต้องยอมรับโมเดลที่มีความสามารถน้อยกว่า หากคุณต้องการประสิทธิภาพเต็มรูปแบบ คุณต้องจ่ายราคาที่สะท้อนต้นทุนการดำเนินงานได้ดีกว่า

สิ่งนี้หมายความว่าอย่างไรสำหรับนักพัฒนา

การเพิ่มราคามีผลกระทบในทางปฏิบัติสำหรับทุกคนที่สร้างแอปพลิเคชัน AI นักพัฒนาไม่สามารถสมมติอีกต่อไปว่าฟีเจอร์ที่แพงในวันนี้จะกลายเป็นราคาที่ไม่แพงในพรุ่งนี้โดยอัตโนมัติผ่านความก้าวหน้าทางเทคโนโลยีเพียงอย่างเดียว การจัดการต้นทุนกำลังกลายเป็นการตัดสินใจทางสถาปัตยกรรมหลักมากกว่าการปรับปรุงที่ทำทีหลัง

การเปลี่ยนแปลงนี้กำลังขับเคลื่อนความสนใจที่เพิ่มขึ้นในทางเลือกอื่นเช่นการประมวลผลแบบ batch และโมเดลโอเพนซอร์ส เมื่อต้นทุน API แบบเรียลไทม์มีพื้นที่จำกัด การประหยัดสัมพันธ์จากการใช้โครงสร้างพื้นฐานของคุณเองหรือการใช้การประมวลผลแบบไม่เรียลไทม์จะกลายเป็นที่น่าสนใจมากขึ้น

การจราจรที่หนาแน่นที่ด่านเก็บเงินเป็นสัญลักษณ์ของความท้าทายที่นักพัฒนาต้องเผชิญกับต้นทุน AI ที่เพิ่มสูงขึ้นและความจำเป็นในการจัดการต้นทุนอย่างมีประสิทธิภาพ
การจราจรที่หนาแน่นที่ด่านเก็บเงินเป็นสัญลักษณ์ของความท้าทายที่นักพัฒนาต้องเผชิญกับต้นทุน AI ที่เพิ่มสูงขึ้นและความจำเป็นในการจัดการต้นทุนอย่างมีประสิทธิภาพ

บทสรุป

ว่าการขึ้นราคาของ Google เป็นสัญญาณของการสิ้นสุดของ AI ราคาถูกหรือเพียงแค่สะท้อนพลวัตตลาดปกตินั้นยังคงเป็นที่ถกเถียงกันอย่างเข้มข้น ความเป็นจริงทางเทคนิคของต้นทุนการคำนวณแบบกำลังสองเป็นเรื่องจริง แต่อัตราการปรับปรุงและการพัฒนาฮาร์ดแวร์ที่ยังคงดำเนินต่อไปก็เป็นเรื่องจริงเช่นกัน

สิ่งที่ชัดเจนคือยุคของการสมมติว่าต้นทุน AI จะลดลงตลอดไปอาจกำลังจะสิ้นสุดลง นักพัฒนากำลังเรียนรู้ที่จะปฏิบัติต่อการกำหนดราคา AI เป็นข้อจำกัดทางธุรกิจมากกว่าความไม่สะดวกชั่วคราว แนวทางที่เป็นจริงมากขึ้นต่อเศรษฐศาสตร์ AI นี้อาจนำไปสู่แอปพลิเคชันที่ดีกว่าและยั่งยืนมากขึ้นในระยะยาว

อ้างอิง: The End of Moore's Law for AI? Gemini Flash Offers a Warning