ระบบระบายความร้อนด้วยของเหลวของ Google ในศูนย์ข้อมูลจุดประกายการถกเถียงเรื่องการอ้างสิทธิ์นวัตกรรม เทียบกับเทคโนโลยี Mainframe ที่มีมาหลายทศวรรษ

ทีมชุมชน BigGo
ระบบระบายความร้อนด้วยของเหลวของ Google ในศูนย์ข้อมูลจุดประกายการถกเถียงเรื่องการอ้างสิทธิ์นวัตกรรม เทียบกับเทคโนโลยี Mainframe ที่มีมาหลายทศวรรษ

การนำเสนอของ Google ใน Hot Chips 2025 เกี่ยวกับระบบระบายความร้อนด้วยของเหลวในระดับศูนย์ข้อมูลสำหรับชิป TPU ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี ในขณะที่บริษัทนำเสนอโซลูชันการระบายความร้อนของตนเป็นความก้าวหน้าที่สำคัญ ผู้เชี่ยวชาญในอุตสาหกรรมหลายคนตั้งคำถามว่าสิ่งนี้เป็นการแสดงถึงนวัตกรรมที่แท้จริงหรือเป็นเพียงการค้นพบเทคโนโลยี mainframe ที่มีอยู่แล้วใหม่

ไทม์ไลน์การระบายความร้อนด้วยของเหลวของ Google

  • 2014-2016: ระยะการวิจัยและพัฒนาและการทดลองเบื้องต้น
  • 2016: การใช้งาน TPU แบบระบายความร้อนด้วยของเหลวครั้งแรก
  • 2025: การปรับใช้ในระดับดาต้าเซ็นเตอร์ในปัจจุบันพร้อม CDU ระดับแร็ก

การถกเถียงระหว่างนวัตกรรมกับการค้นพบใหม่

ความขัดแย้งหลักมุ่งเน้นไปที่ว่าแนวทางของ Google สร้างพื้นฐานใหม่อย่างแท้จริงหรือไม่ นักวิจารณ์ชี้ให้เห็นว่า mainframe ได้ใช้การระบายความร้อนด้วยของเหลวมากว่า 50 ปีแล้ว โดยระบบ IBM ตั้งแต่ทศวรรษ 1960 ได้ใช้การแลกเปลี่ยนความร้อนแบบน้ำต่อน้ำผ่าน Coolant Distribution Units (CDUs) ซึ่งเป็นสถาปัตยกรรมพื้นฐานเดียวกันที่ Google นำเสนอในปัจจุบัน สมาชิกในชุมชนบางคนแสดงความหงุดหงิดต่อสิ่งที่พวกเขามองว่าเป็นการลืมเลือนในอุตสาหกรรม

อย่างไรก็ตาม ผู้สนับสนุนโต้แย้งว่านวัตกรรมที่แท้จริงไม่ได้อยู่ที่แนวคิดการระบายความร้อนเอง แต่อยู่ที่ขนาดและแนวทางการรวมระบบ ระบบของ Google ครอบคลุมศูนย์ข้อมูลทั้งหมดมากกว่าเซิร์ฟเวอร์หรือแร็กแต่ละตัว โดยกำจัดการถ่ายเทความร้อนแบบอากาศตลอดทั้งห่วงโซ่การระบายความร้อนตั้งแต่ชิปไปจนถึงเครื่องทำความเย็นภายนอก

ความท้าทายด้านขนาดและการปฏิบัติการ

การอภิปรายเผยให้เห็นข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับความท้าทายในทางปฏิบัติของการระบายความร้อนด้วยของเหลวในระดับศูนย์ข้อมูล ต่างจากผู้ที่ชื่นชอบ PC ที่สามารถปิดระบบของตนเพื่อการบำรุงรักษาได้ Google ต้องรักษาระบบให้ทำงานได้ตลอดเวลาในเซิร์ฟเวอร์หลายพันเครื่อง โซลูชันของพวกเขาประกอบด้วย CDUs สำรองและระบบตรวจสอบที่ซับซ้อนเพื่อจัดการการบำรุงรักษาโดยไม่ขัดจังหวะการให้บริการ

สมาชิกชุมชนที่มีประสบการณ์ด้านศูนย์ข้อมูลเน้นย้ำถึงความซับซ้อนในการจัดการการเชื่อมต่อน้ำควบคู่ไปกับสายไฟและสายเครือข่ายแบบดั้งเดิม เซิร์ฟเวอร์แต่ละเครื่องต้องมีท่อน้ำจ่ายและท่อน้ำคืนพร้อมข้อต่อแบบถอดได้อย่างรวดเร็ว โดยถือว่าเซิร์ฟเวอร์ต้องการไฟฟ้า อินเทอร์เน็ต และน้ำ ซึ่งเปรียบเทียบได้กับความต้องการพื้นฐานของมนุษย์

ข้อมูลจำเพาะทางเทคนิค

  • การกำหนดค่า CDU : 6 หน่วยต่อแร็ค (5 หน่วยใช้งาน, 1 หน่วยสำหรับการบำรุงรักษา)
  • ประสิทธิภาพการระบายความร้อน: น้ำมีการนำความร้อนสูงกว่าอากาศประมาณ 4,000 เท่า
  • การประหยัดพลังงาน: ปั๊มระบายความร้อนด้วยของเหลวใช้พลังงานน้อยกว่า 5% เมื่อเทียบกับพัดลมที่มีประสิทธิภาพเทียบเท่า
  • การปรับปรุง TPUv4 : การระบายความร้อนแบบ bare-die ให้การรองรับพลังงานสูงกว่า TPUv3 ถึง 1.5 เท่า

การพิจารณาด้านสิ่งแวดล้อมและประสิทธิภาพ

ด้านการใช้น้ำได้ก่อให้เกิดการถกเถียงอย่างมาก โดยเฉพาะเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมของ AI ในขณะที่บางคนแสดงความกังวลเกี่ยวกับการบริโภคน้ำ คนอื่นๆ โต้แย้งว่าการวิจารณ์นั้นเกินจริง การอภิปรายเผยให้เห็นว่าการใช้น้ำของศูนย์ข้อมูล แม้จะมีปริมาณมากที่ 66 ล้านแกลลอนต่อวันในสหรัฐอเมริกา แต่คิดเป็นเพียงประมาณ 6% ของการใช้น้ำของสนามกอล์ฟและ 3% ของการใช้น้ำในการปลูกฝ้าย

ฉันเคยดูสัมภาษณ์กับ SVP ที่ดูแลการสร้างศูนย์ข้อมูล Azure หรืออะไรทำนองนั้น และสิ่งที่ติดใจฉันคือเขาบอกว่างานของเขาง่ายขึ้นมากเมื่อเขาตระหนักว่าเขาไม่ได้อยู่ในธุรกิจคอมพิวเตอร์อีกต่อไป เขาอยู่ในธุรกิจระบายความร้อนอุตสาหกรรมแล้ว

บริบทการใช้น้ำ

  • การใช้น้ำของศูนย์ข้อมูลใน US : 66 ล้านแกลลอนต่อวัน (2024)
  • การเติบโตที่คาดการณ์: เพิ่มขึ้น 2-4 เท่าภายในปี 2028
  • การเปรียบเทียบ: 6% ของการใช้น้ำในสนามกอล์ฟของ US , 3% ของการใช้น้ำในการปลูกฝ้ายของ US
  • อัตราของ Google : ประมาณ 1 ลิตรต่อกิโลวัตต์-ชั่วโมงทั่วโลก

รายละเอียดการใช้งานทางเทคนิค

การอภิปรายของชุมชนให้ข้อมูลเชิงลึกทางเทคนิคที่มีค่าเกินกว่าการนำเสนอเดิม การออกแบบ cold plate แบบแยกการไหลและแนวทางการระบายความร้อนแบบ bare-die สำหรับชิป TPUv4 ของ Google แสดงให้เห็นถึงความพยายามที่จำเป็นในการจัดการกับความหนาแน่นของพลังงานที่เพิ่มขึ้น การกำหนดค่าแบบอนุกรมของระบบหมายความว่าชิปบางตัวจะได้รับสารหล่อเย็นที่ถูกทำให้ร้อนขึ้นแล้ว ซึ่งต้องมีการคำนวณความร้อนอย่างระมัดระวังสำหรับชิปสุดท้ายในแต่ละลูป

วิศวกรที่มีประสบการณ์สังเกตว่าแม้ส่วนประกอบแต่ละชิ้นจะไม่ใช่สิ่งที่ปฏิวัติวงการ แต่การรวมกันและการปรับให้เหมาะสมด้านขนาดแสดงถึงความสำเร็จทางวิศวกรรมที่สำคัญ ตัวเลข Power Usage Effectiveness (PUE) ที่รายงานแสดงให้เห็นว่าการใช้งานของ Google มีประสิทธิภาพสูงเมื่อเปรียบเทียบกับแนวทางการระบายความร้อนด้วยอากาศแบบดั้งเดิม

การถกเถียงนี้สะท้อนถึงรูปแบบที่กว้างขึ้นในอุตสาหกรรมเทคโนโลยี ที่บริษัทต่างๆ ค้นพบและดัดแปลงเทคโนโลยีที่มีอยู่แล้วสำหรับขนาดและการใช้งานใหม่ ไม่ว่าจะมองว่าเป็นนวัตกรรมหรือการปรับปรุง การใช้งานระบบระบายความร้อนด้วยของเหลวของ Google แสดงให้เห็นถึงการพัฒนาอย่างต่อเนื่องของโครงสร้างพื้นฐานศูนย์ข้อมูลเพื่อตอบสนองความต้องการของ AI workloads สมัยใหม่

อ้างอิง: Google's Liquid Cooling at Hot Chips 2025