ชิป NorthPole ของ IBM แสดงประสิทธิภาพด้านพลังงานเหนือกว่า GPU ถึง 73 เท่า แต่ชุมชนตั้งคำถามถึงผลกระทบในโลกจริง

ทีมชุมชน BigGo
ชิป NorthPole ของ IBM แสดงประสิทธิภาพด้านพลังงานเหนือกว่า GPU ถึง 73 เท่า แต่ชุมชนตั้งคำถามถึงผลกระทบในโลกจริง

โปรเซสเซอร์ NorthPole รุ่นล่าสุดของ IBM ได้จุดประกายการอภิปรายอย่างร้อนแรงในชุมชนเทคโนโลยี หลังจากอ้างว่ามีการปรับปรุงประสิทธิภาพอย่างมากเมื่อเปรียบเทียบกับ GPU แบบดั้งเดิม ชิปดังกล่าวแสดงถึงการเปลี่ยนแปลงพื้นฐานจากสถาปัตยกรรม von Neumann ที่มีมาหลายทศวรรษซึ่งแยกหน่วยความจำและหน่วยประมวลผลออกจากกัน โดยเปลี่ยนมาเป็นการรวมเข้าด้วยกันโดยตรง

ปฏิกิริยาจากชุมชนเผยให้เห็นทั้งความตื่นเต้นและความสงสัยเกี่ยวกับการอ้างสิทธิ์เหล่านี้ แม้ว่า IBM จะรายงานผลการทดสอบที่น่าประทับใจ แต่นักพัฒนาที่มีประสบการณ์กำลังตั้งคำถามว่าสิ่งนี้แสดงถึงนวัตกรรมที่แท้จริงหรือเป็นเพียงการพัฒนาต่อยอดจากแนวทางที่มีอยู่เดิม

การแสดงภาพแบบสัญลักษณ์ของคอขวด von Neumann ที่แสดงการไหลของข้อมูลและข้อจำกัดในการประมวลผล
การแสดงภาพแบบสัญลักษณ์ของคอขวด von Neumann ที่แสดงการไหลของข้อมูลและข้อจำกัดในการประมวลผล

การอ้างสิทธิ์จากการทดสอบเผชิญกับการตรวจสอบความเป็นจริง

ตัวเลขประสิทธิภาพของ IBM ดึงดูดความสนใจอย่างแน่นอน ในการทดสอบกับโมเดลภาษา 3 พันล้านพารามิเตอร์ NorthPole แสดงประสิทธิภาพที่เร็วกว่า 47 เท่าเมื่อเปรียบเทียบกับ GPU ที่มีประสิทธิภาพด้านพลังงานสูงสุด และมีประสิทธิภาพด้านพลังงานดีกว่า 73 เท่าเมื่อเปรียบเทียบกับ GPU ที่มีเวลาตอบสนองต่ำสุด อย่างไรก็ตาม สมาชิกชุมชนกำลังศึกษาลึกลงไปว่าตัวเลขเหล่านี้หมายความว่าอย่างไรในทางปฏิบัติ

การอภิปรายเผยให้เห็นว่า IBM ได้ทำงานเกี่ยวกับเทคโนโลยีนี้มานานกว่าทศวรรษ ทำให้บางคนสงสัยว่าบริษัทหวังให้คนอื่นนำแนวทางที่คล้ายกันไปใช้ แล้วจ่ายค่าลิขสิทธิ์สำหรับสิทธิบัตรของ IBM หรือไม่ ระยะเวลาการพัฒนาที่ยาวนานนี้ยังทำให้เกิดคำถามว่าทำไมการปรับปรุงที่มากมายเช่นนี้จึงเพิ่งมีการประกาศในขณะนี้

การอ้างสมรรถนะของ NorthPole :

  • เร็วกว่า GPU ที่ประหยัดพลังงานที่สุดถึง 47 เท่า
  • ประหยัดพลังงานมากกว่า GPU ที่มีความหน่วงต่ำที่สุดถึง 73 เท่า
  • ทดสอบกับ LLM ขนาด 3 พันล้านพารามิเตอร์ (โมเดล IBM Granite-8B-Code-Base )
  • ระยะเวลาการพัฒนา: มากกว่า 10 ปี

สงครามสถาปัตยกรรม: Von Neumann เทียบกับ In-Memory Computing

ชุมชนทางเทคนิคมีส่วนร่วมอย่างมากในการอภิปรายเกี่ยวกับการเปลี่ยนแปลงสถาปัตยกรรมพื้นฐาน การออกแบบ von Neumann แบบดั้งเดิมที่แยกโปรเซสเซอร์และหน่วยความจำออกจากกัน สร้างสิ่งที่ผู้เชี่ยวชาญเรียกว่าคอขวด - โปรเซสเซอร์มักจะนิ่งอยู่เฉยๆ รอให้ข้อมูลเดินทางไปมาระหว่างหน่วยความจำ

สำหรับการประมวลผลทั่วไป ไม่มีอะไรที่ทรงพลังไปกว่าสถาปัตยกรรม von Neumann จริงๆ

คอขวดนี้กลายเป็นปัญหาโดยเฉพาะสำหรับภาระงาน AI ที่น้ำหนักโมเดลจำนวนมหาศาลต้องถูกสับเปลี่ยนอย่างต่อเนื่องระหว่างหน่วยความจำและโปรเซสเซอร์ แนวทางของ IBM ย้ายการประมวลผลเข้าไปในหน่วยความจำโดยตรง ช่วยลดการเคลื่อนย้ายข้อมูลส่วนใหญ่นี้

ผลกระทบของ Von Neumann Bottleneck ต่อ AI:

  • พลังงานการถ่ายโอนข้อมูล: ~90% ของการใช้พลังงานในงาน AI
  • พลังงานการคำนวณจริง: ~10% ของการใช้พลังงานในงาน AI
  • สาเหตุหลัก: การส่งผ่านน้ำหนักของโมเดลอย่างต่อเนื่องระหว่างหน่วยความจำและหน่วยประมวลผลที่แยกจากกัน

การเปรียบเทียบภูมิทัศน์การแข่งขัน

การอภิปรายของชุมชนเผยให้เห็นว่า NorthPole ของ IBM ไม่ได้ดำเนินการแยกเดี่ยว แนวทางที่คล้ายกันกำลังถูกดำเนินการโดยบริษัทต่างๆ เช่น Groq ด้วยชิป LPU ของพวกเขา การออกแบบฮาร์ดแวร์ของ Tenstorrent และสถาปัตยกรรม NPU ของ AMD แต่ละบริษัทกำลังจัดการกับปัญหาคอขวดหน่วยความจำจากมุมที่แตกต่างกันเล็กน้อย

Cerebras ได้ใช้แนวทางที่รุนแรงด้วยชิป WSE-3 ของพวกเขา โดยรวมหน่วยความจำบนชิป 44GB ในขณะเดียวกัน Groq มุ่งเน้นไปที่การทำให้หน่วยความจำเร็วอย่างเหลือเชื่อมากกว่าการย้ายการประมวลผลเข้าไปในหน่วยความจำเอง การอภิปรายของชุมชนมุ่งเน้นไปที่ว่าแนวทางใดจะพิสูจน์ได้ว่ามีประสิทธิภาพมากที่สุดในการประยุกต์ใช้ในโลกจริง

สถาปัตยกรรมชิป AI คู่แข่ง:

  • IBM NorthPole: การประมวลผลในหน่วยความจำพร้อมการจัดเก็บแบบอนาล็อก
  • Groq LPU: หน่วยความจำความเร็วสูงมาก (80 เทราไบต์ต่อวินาที) พร้อมการแยกหน่วยประมวลผล/หน่วยความจำแบบดั้งเดิม
  • Cerebras WSE-3: SRAM บนชิป 44GB
  • Tenstorrent: ความจุ SRAM สูงในราคาที่แข่งขันได้
  • AMD NPU: หน่วยประมวลผลเครือข่ายประสาทเทียมแบบกำหนดเอง
ผู้เชี่ยวชาญในอุตสาหกรรมกำลังหารือเกี่ยวกับแนวทางนวัตกรรมในการเอาชนะคอขวดของหน่วยความจำในระบบคอมพิวติ้ง
ผู้เชี่ยวชาญในอุตสาหกรรมกำลังหารือเกี่ยวกับแนวทางนวัตกรรมในการเอาชนะคอขวดของหน่วยความจำในระบบคอมพิวติ้ง

การฟื้นคืนหน่วยความจำแอนะล็อกสร้างความตื่นเต้น

ด้านหนึ่งที่สร้างความกระตือรือร้นอย่างแท้จริงคือการใช้หน่วยความจำแอนะล็อกของ IBM สำหรับเก็บน้ำหนักโมเดล สิ่งนี้แสดงถึงการกลับมาที่น่าสนใจของแนวคิดการประมวลผลแอนะล็อกที่ถูกละทิ้งไปเป็นส่วนใหญ่หลายทศวรรษที่แล้วเพื่อความแม่นยำแบบดิจิทัล

ชุมชนชื่นชมความสง่างามของแนวทางนี้ - เนื่องจากน้ำหนักโมเดล AI ไม่จำเป็นต้องมีความแม่นยำที่สมบูรณ์แบบ การจัดเก็บแอนะล็อกสามารถให้ประสิทธิภาพที่เพิ่มขึ้นอย่างมากพร้อมกับเพิ่มสัญญาณรบกวนที่เป็นประโยชน์ซึ่งอาจปรับปรุงประสิทธิภาพของโมเดลจริงๆ ความไม่แม่นยำนี้แทนที่จะเป็นข้อเสีย อาจทำหน้าที่เหมือนการเปลี่ยนแปลงอุณหภูมิในตัวที่ช่วยป้องกัน overfitting

บล็อกของ IBM กล่าวถึงข้อจำกัดของสถาปัตยกรรม von Neumann ต่อการคำนวณ AI
บล็อกของ IBM กล่าวถึงข้อจำกัดของสถาปัตยกรรม von Neumann ต่อการคำนวณ AI

ความเป็นจริงของตลาดเทียบกับนวัตกรรมทางเทคนิค

แม้จะมีความสำเร็จทางเทคนิคที่น่าประทับใจ แต่ความรู้สึกของชุมชนแนะนำให้ระมัดระวังเกี่ยวกับผลกระทบในทางปฏิบัติทันที การปรับปรุง แม้จะมีนัยสำคัญในสภาวะห้องปฏิบัติการ อาจแสดงถึงความก้าวหน้าที่เพิ่มขึ้นมากกว่าการพัฒนาที่ปฏิวัติวงการเมื่อนำไปใช้ในสถานการณ์โลกจริง

การอภิปรายที่กว้างขึ้นสะท้อนถึงความท้าทายที่กำลังดำเนินอยู่ของอุตสาหกรรมเกี่ยวกับต้นทุนการประมวลผล AI และการใช้พลังงาน แม้ว่าสถาปัตยกรรมใหม่อย่าง NorthPole จะเสนอทิศทางที่มีแนวโน้มดี แต่ชุมชนตระหนักว่าการนำไปใช้ในทางปฏิบัติจะขึ้นอยู่กับปัจจัยต่างๆ นอกเหนือจากตัวเลขประสิทธิภาพดิบ รวมถึงความเข้ากันได้ของซอฟต์แวร์ ต้นทุนการผลิต และการสนับสนุนระบบนิเวศ

อ้างอิง: Why a decades old architecture decision is impeding the power of AI computing