ภูมิทัศน์ของการพัฒนา AI แบบโลคัลได้ไปถึงจุดสำคัญแล้ว โมเดลโอเพนซอร์สใหม่ชื่อ GLM-4.5 Air สามารถรันบนฮาร์ดแวร์ผู้บริโภคและสร้างโค้ดที่ใช้งานได้จริงด้วยผลลัพธ์ที่น่าประทับใจ การพัฒนานี้เป็นจุดเปลี่ยนที่ทำให้ความช่วยเหลือในการเขียนโค้ดที่ทรงพลังไม่จำเป็นต้องพึ่งพาบริการคลาวด์หรือฮาร์ดแวร์เซิร์ฟเวอร์ราคาแพงอีกต่อไป
ความต้องการฮาร์ดแวร์ลดลงอย่างมาก
โมเดล GLM-4.5 Air แม้จะมีพารามิเตอร์มหาศาลถึง 106 พันล้านตัว แต่ก็ได้รับการบีบอัดเป็นแพ็กเกจขนาด 44GB ที่รันบนแล็ปท็อปที่มี RAM 64GB ได้สำเร็จ ความสำเร็จนี้เกิดจากเทคนิค 3-bit quantization ที่ลดการใช้หน่วยความจำของโมเดลลงอย่างมากโดยไม่ส่งผลกระทบต่อประสิทธิภาพอย่างรุนแรง โมเดลใช้ RAM ประมาณ 48GB ในช่วงที่ใช้งานสูงสุด และสร้างโค้ดด้วยความเร็วประมาณ 25 โทเค็นต่อวินาทีบนฮาร์ดแวร์ Apple Silicon
Quantization เป็นเทคนิคการบีบอัดที่ลดความแม่นยำของตัวเลขในโมเดล AI เพื่อประหยัดหน่วยความจำในขณะที่ยังคงประสิทธิภาพเดิมไว้ส่วนใหญ่
ข้อมูลจำเพาะของโมเดล GLM-4.5 Air :
- พารามิเตอร์ทั้งหมด: 106 พันล้าน
- ขนาดหลังบีบอัด: 44GB (การบีบอัดแบบ 3-bit)
- ขนาดต้นฉบับ: 205.78GB
- การใช้งาน RAM: ~48GB ในช่วงสูงสุด
- ประสิทธิภาพ: สร้างได้ 25.5 โทเค็นต่อวินาที
- ใบอนุญาต: MIT (โอเพนซอร์ส)
การเน้นการฝึกด้านโค้ดให้ผลตอบแทน
การสนทนาในชุมชนเผยให้เห็นแนวโน้มที่ชัดเจน: โมเดล AI หลักเกือบทุกตัวที่เปิดตัวในปี 2025 ได้เจาะจงความสามารถด้านการเขียนโค้ดโดยเฉพาะ GLM-4.5 ได้รับการฝึกอย่างเข้มข้นด้วยชุดข้อมูลโค้ดและการใช้เหตุผล โดยมีโทเค็น 7 ล้านล้านตัวที่อุทิศให้กับเนื้อหาการเขียนโปรแกรมโดยเฉพาะ แนวทางที่มุ่งเน้นนี้ได้สร้างโมเดลที่สามารถสร้างแอปพลิเคชันที่ใช้งานได้จริง แก้ไขโค้ดที่มีอยู่ และแม้กระทั่งอธิบายกระบวนการใช้เหตุผลของตัวเองได้
ผลลัพธ์พูดแทนตัวเอง ในขณะที่โมเดลจากเพียงสองปีที่แล้วยังดิ้นรนกับการทำตามคำสั่งพื้นฐาน โมเดลโลคัลในปัจจุบันสามารถสร้างแอปพลิเคชันที่สมบูรณ์และใช้งานได้จริงจากคำสั่งง่าย ๆ ตัวอย่าง Space Invaders แสดงให้เห็นความสามารถนี้ แต่สมาชิกในชุมชนรายงานความสำเร็จกับแอปพลิเคชันที่ซับซ้อนและปรับแต่งเองมากขึ้นด้วย
การแบ่งข้อมูลการฝึกอบรม:
- การฝึกอบรมเบื้องต้น: 15 ล้านล้าน tokens (คลังข้อมูลทั่วไป)
- โค้ดและการใช้เหตุผล: 7 ล้านล้าน tokens (การฝึกอบรมเฉพาะทาง)
- ขั้นตอนเพิ่มเติมสำหรับการเสริมสร้างโดเมนปลายทาง
- การเรียนรู้เชิงเสริมแสร้งอย่างกว้างขวางสำหรับการสร้างโค้ด
การแลกเปลี่ยนระหว่างโลคัลกับคลาวด์เริ่มปรากฏ
ในขณะที่โมเดลโลคัลพัฒนาขึ้น นักพัฒนากำลังชั่งน้ำหนักประโยชน์ของการรัน AI ในเครื่องเทียบกับการใช้บริการคลาวด์ การทำงานแบบโลคัลให้ความเป็นส่วนตัว ไม่มีขีดจำกัดการใช้งาน และความเป็นอิสระจากการเชื่อมต่ออินเทอร์เน็ต อย่างไรก็ตาม ต้องลงทุนฮาร์ดแวร์ล่วงหน้าจำนวนมาก และอาจต้องเสียสละคุณภาพบางส่วนเมื่อเทียบกับโมเดลคลาวด์ขั้นสูง
การล้าหลังแค่ 6 เดือนมันบ้ามาก! ฉันไม่เคยฝันในฝันที่เลวร้ายที่สุดว่าเราจะมาถึงจุดนี้ได้ อันที่จริงฉันคิดว่าจะใช้เวลาประมาณ 2 ปีกว่าจะไปถึงระดับ gpt3.5
ความต้องการฮาร์ดแวร์ยังคงมีมาก แม้ว่า MacBook Pro 64GB จะรันโมเดลเหล่านี้ได้ แต่การกำหนดค่าดังกล่าวมีราคาแพงกว่าโมเดลพื้นฐานอย่างมาก การตั้งค่าทางเลือกที่ใช้ GPU NVIDIA หลายตัวหรือเวิร์กสเตชัน RAM สูงสามารถให้ผลลัพธ์ที่คล้ายกันได้ แต่ต้องใช้ความเชี่ยวชาญด้านเทคนิคในการกำหนดค่าอย่างเหมาะสม
การเปรียบเทียบความต้องการด้านฮาร์ดแวร์:
- Apple Silicon (แนะนำ): MacBook Pro/Mac Studio ที่มี unified memory 64GB ขึ้นไป
- การตั้งค่า NVIDIA GPU: RTX 3090 2 ตัว (VRAM 24GB ต่อตัว) + เมนบอร์ดที่รองรับ (~1,500 ดอลลาร์สหรัฐฯ แบบมือสอง)
- การตั้งค่าแบบใช้ CPU เท่านั้น: RAM ระบบ 64GB ขึ้นไป (ประสิทธิภาพช้ากว่ามาก)
- ทางเลือกอื่น: เช่า cloud GPU สำหรับทดสอบก่อนซื้อฮาร์ดแวร์
ชุมชนถกเถียงความสามารถของโมเดล
ชุมชนนักพัฒนายังคงแบ่งแยกเกี่ยวกับวิธีการทำงานจริงของโมเดลเหล่านี้ บางคนโต้แย้งว่าโมเดลส่วนใหญ่รวมรูปแบบโค้ดที่มีอยู่จากข้อมูลการฝึกของพวกเขาใหม่ ในขณะที่คนอื่น ๆ ชี้ไปที่หลักฐานของการใช้เหตุผลที่แท้จริงและความสามารถในการแก้ปัญหาแบบใหม่ ความจริงน่าจะอยู่ระหว่างตำแหน่งเหล่านี้ โดยโมเดลแสดงทั้งการจับคู่รูปแบบและการแก้ปัญหาเชิงสร้างสรรค์ขึ้นอยู่กับความซับซ้อนของงาน
การทดสอบเผยให้เห็นว่าโมเดลเก่งในงานการเขียนโปรแกรมที่มีเอกสารครบถ้วน แต่ดิ้นรนกับความต้องการที่แปลกใหม่มาก ข้อจำกัดนี้ทำให้นักพัฒนาบางคนสร้างเบนช์มาร์กส่วนตัวเพื่อประเมินประสิทธิภาพของโมเดลในกรณีการใช้งานเฉพาะของพวกเขา แทนที่จะพึ่งพาเบนช์มาร์กสาธารณะที่อาจปนเปื้อนด้วยข้อมูลการฝึก
ผลกระทบในอนาคตสำหรับการพัฒนา
การปรับปรุงอย่างรวดเร็วในโมเดล AI แบบโลคัลบ่งชี้ถึงการเปลี่ยนแปลงที่สำคัญในอนาคตสำหรับการพัฒนาซอฟต์แวร์ เมื่อโมเดลเหล่านี้มีความสามารถและเข้าถึงได้มากขึ้น พวกเขาอาจลดการพึ่งพาบริการ AI บนคลาวด์สำหรับงานเขียนโค้ดหลายอย่าง อย่างไรก็ตาม ความต้องการฮาร์ดแวร์ที่มากหมายความว่าการนำไปใช้อย่างแพร่หลายจะขึ้นอยู่กับการเพิ่มประสิทธิภาพเพิ่มเติมและอาจจะฮาร์ดแวร์ใหม่ที่ออกแบบมาสำหรับภาระงาน AI โดยเฉพาะ
วิถีทางปัจจุบันบ่งชี้ว่าความช่วยเหลือในการเขียนโค้ดด้วย AI แบบโลคัลจะเป็นไปได้มากขึ้นสำหรับนักพัฒนาแต่ละคนและทีมเล็ก ๆ ในขณะที่องค์กรขนาดใหญ่อาจยังคงพึ่งพาบริการคลาวด์สำหรับแอปพลิเคชันที่ต้องการมากที่สุด
อ้างอิง: My 2.5 year old laptop can write Space Invaders in JavaScript now, using GLM-4.5 Air and MLX