นักวิจัยได้สาธิตการโจมตี Rowhammer ที่กำหนดเป้าหมายไปที่หน่วยความจำ GPU เป็นครั้งแรกอย่างสำเร็จ โดยเฉพาะส่งผลกระทบต่อการ์ดกราฟิก NVIDIA RTX A6000 การโจมตีที่ก้าวล้ำนี้ซึ่งได้รับการขนานนามว่า GPUHammer แสดงให้เห็นถึงการขยายตัวที่สำคัญของช่องโหว่ด้านความปลอดภัยที่อิงหน่วยความจำจากระบบ CPU แบบดั้งเดิมไปสู่ฮาร์ดแวร์ GPU สมัยใหม่ที่ใช้อย่างแพร่หลายในงาน AI และ machine learning
ทีมวิจัยสามารถเหนี่ยวนำให้เกิดการพลิกบิตในทุกแบงก์ DRAM ที่ทดสอบในหน่วยความจำ GDDR6 ของ A6000 แม้จะมีมาตรการรักษาความปลอดภัยในตัวอย่าง Target Row Refresh (TRR) การสาธิตที่น่าประทับใจที่สุดของพวกเขาแสดงให้เห็นว่าบิตที่เสียหายเพียงตัวเดียวสามารถทำลายล้างโมเดล machine learning ได้อย่างไร โดยลดความแม่นยำจาก 80% เหลือเพียง 0.1% ในเครือข่ายประสาทเทียม ImageNet ห้าแบบที่แตกต่างกัน
ประสิทธิภาพการโจมตี:
- จำนวนการเปิดใช้งานขั้นต่ำ (TRH): ประมาณ 12K การเปิดใช้งาน
- การพลิกบิตที่สังเกตได้: 8 การพลิกบิตเดี่ยวที่แตกต่างกัน
- การลดลงของความแม่นยำของโมเดล ML: จาก 80% เหลือ 0.1% ด้วยการพลิกบิตเดียว
- โมเดลที่ได้รับผลกระทบ: ทดสอบกับโมเดล ImageNet DNN ที่แตกต่างกัน 5 โมเดล
![]() |
---|
ภาพรวมของการวิจัย GPUHammer ที่เน้นผลกระทบของการโจมตี Rowhammer ต่อหน่วยความจำของ GPU |
ความท้าทายทางเทคนิคและความหลงใหลของชุมชน
สภาพแวดล้อม GPU นำเสนอความท้าทายที่เป็นเอกลักษณ์เมื่อเปรียบเทียบกับการโจมตี Rowhammer แบบดั้งเดิมที่อิง CPU หน่วยความจำ GDDR6 ทำงานด้วยเวลาแฝงที่สูงกว่าและอัตราการรีเฟรชที่เร็วกว่า DDR4 ทำให้การจับเวลาที่แม่นยำซึ่งจำเป็นสำหรับการโจมตีที่สำเร็จนั้นยากขึ้น นอกจากนี้ GPU ของ NVIDIA ยังไม่เปิดเผยที่อยู่หน่วยความจำทางกายภาพให้กับโค้ดระดับผู้ใช้ ทำให้นักวิจัยต้องวิศวกรรมย้อนกลับการแมปหน่วยความจำผ่านการวิเคราะห์เวลา
ความสำเร็จทางเทคนิคนี้ได้จุดประกายการอภิปรายเชิงปรัชญาภายในชุมชนความปลอดภัยเกี่ยวกับธรรมชาติของช่องโหว่ฮาร์ดแวร์ ผู้สังเกตการณ์บางคนพบว่าการโจมตีเหล่านี้น่าสนใจเป็นพิเศษเพราะพวกมันใช้ประโยชน์จากฟิสิกส์พื้นฐานที่เป็นรากฐานของระบบคอมพิวเตอร์มากกว่าบั๊กซอฟต์แวร์หรือข้อบกพร่องในการออกแบบ
คุณหลบหนีจากจักรวาลเสมือนที่ปิดล้อมโดยไม่ 'หลุดออก' ในแบบดั้งเดิม ไม่ได้ใช้ประโยชน์จากบั๊กในขอบเขตของ VM hypervisor เอง แต่โดยการจัดการฟิสิกส์พื้นฐานของจักรวาลที่จักรวาลเสมือนตั้งอยู่บนนั้นโดยตรง เพียงแค่สร้างรูปแบบภายในจักรวาลเสมือนนั้นเอง
ฮาร์ดแวร์ที่ได้รับผลกระทบ:
- NVIDIA RTX A6000 (48 GB GDDR6) - มีช่องโหว่
- NVIDIA RTX 3080 - ไม่ได้รับผลกระทบในการทดสอบ
- NVIDIA A100 (หน่วยความจำ HBM) - ไม่ได้รับผลกระทบ
- NVIDIA H100 (HBM3) - ได้รับการป้องกันด้วย on-die ECC
- RTX 5090 (GDDR7) - ได้รับการป้องกันด้วย on-die ECC
![]() |
---|
ภาพประกอบการประมวลผลแบบขนานในการคำนวณของ GPU ที่เกี่ยวข้องกับวิธีการโจมตี GPUHammer |
ผลกระทบในโลกแห่งความเป็นจริงและข้อกังวลเรื่องการบรรเทา
ผลกระทบในทางปฏิบัติของ GPUHammer ยังคงมีข้อจำกัดอยู่บ้างเนื่องจากรูปแบบการใช้งาน GPU ในปัจจุบัน ผู้ให้บริการคลาวด์รายใหญ่อย่าง AWS , Google Cloud และ Microsoft Azure โดยทั่วไปจะจัดสรร GPU ทั้งหมดให้กับผู้เช่ารายเดียวแทนที่จะแบ่งปันระหว่างผู้ใช้หลายคน การแยกนี้ลดพื้นผิวการโจมตีอย่างมีนัยสำคัญ เนื่องจากโค้ดที่เป็นอันตรายจะต้องทำงานควบคู่ไปกับปริมาณงานของเหยื่อบนฮาร์ดแวร์ทางกายภาพเดียวกัน
อย่างไรก็ตาม การวิจัยนี้เน้นย้ำถึงความกังวลที่เพิ่มขึ้นเกี่ยวกับความปลอดภัยของ GPU เมื่อโปรเซสเซอร์เหล่านี้กลายเป็นศูนย์กลางของโครงสร้างพื้นฐาน AI มากขึ้น การโจมตีทำงานผ่านโค้ด CUDA มาตรฐานที่ผู้ใช้ GPU คนใดก็สามารถเรียกใช้ได้ ทำให้ผู้โจมตีที่มีการเข้าถึง GPU อย่างถูกต้องสามารถเข้าถึงได้
NVIDIA ได้รับทราบช่องโหว่นี้และแนะนำให้เปิดใช้งาน Error Correction Codes (ECC) เป็นกลยุทธ์การบรรเทา แม้ว่า ECC สามารถป้องกันการพลิกบิตเดียวเช่นที่สาธิตในการวิจัย แต่ก็มาพร้อมกับต้นทุนประสิทธิภาพสูงถึง 10% และลดความจุหน่วยความจำที่ใช้ได้ 6.25% ในระบบที่ได้รับผลกระทบ
ค่าใช้จ่ายในการลดผลกระทบของ ECC:
- ผลกระทบต่อประสิทธิภาพ: ความเร็วลดลงสูงสุด 10% สำหรับการประมวลผล ML
- การลดลงของความจุหน่วยความจำ: 6.25% บน A6000
- คำสั่งเปิดใช้งาน:
nvidia-smi -e 1
(ต้องรีบูต)
![]() |
---|
เมตริกประสิทธิภาพที่แสดงผลกระทบของ Error Correction Codes ( ECC ) ในการป้องกันการโจมตี Rowhammer ในหน่วยความจำ GPU |
วิวัฒนาการฮาร์ดแวร์และแนวโน้มในอนาคต
ช่องโหว่ดูเหมือนจะจำกัดอยู่ที่การกำหนดค่าฮาร์ดแวร์เฉพาะ การทดสอบเผยให้เห็นว่ามีเพียง NVIDIA A6000 ที่มีหน่วยความจำ GDDR6 เท่านั้นที่แสดงความอ่อนไหวต่อการโจมตี ในขณะที่ GPU อื่น ๆ รวมถึง RTX 3080 และ A100 ที่มีหน่วยความจำ HBM ยังคงไม่ได้รับผลกระทบ ความแปรปรวนนี้น่าจะเกิดจากความแตกต่างในผู้จำหน่ายหน่วยความจำ ลักษณะของชิป และสภาวะการทำงาน
GPU รุ่นใหม่กว่าอาจให้การป้องกันที่ดีกว่า H100 และ RTX 5090 ที่กำลังจะมาถึงมีคุณสมบัติ on-die ECC ที่ควรจะปกปิดการพลิกบิตเดียว แม้ว่านักวิจัยจะสังเกตว่าการโจมตีแบบหลายบิตในอนาคตอาจสามารถข้ามการป้องกันดังกล่าวได้
การวิจัยเน้นย้ำถึงความตึงเครียดที่ดำเนินต่อไปในการออกแบบฮาร์ดแวร์ระหว่างการเพิ่มประสิทธิภาพและความแข็งแกร่งด้านความปลอดภัย ผู้ผลิตหน่วยความจำทราบมานานแล้วเกี่ยวกับปัญหาความไวต่อรูปแบบที่ทำให้เกิดการโจมตี Rowhammer แต่แรงกดดันจากตลาดในอดีตได้สนับสนุนหน่วยความจำที่เร็วกว่าและหนาแน่นกว่ามากกว่าทางเลือกที่ปลอดภัยกว่า ดังที่สมาชิกชุมชนคนหนึ่งสังเกต อุตสาหกรรมเผชิญกับปัญหาภายนอกทางเศรษฐกิจแบบคลาสสิกที่ผู้ผลิตไม่ต้องรับผิดชอบต่อความประมาทเลินเล่อด้านความปลอดภัย ส่งผลให้มีการใช้งานฮาร์ดแวร์ที่มีช่องโหว่อย่างแพร่หลาย
การวิจัย GPUHammer ทำหน้าที่เป็นทั้งความสำเร็จทางเทคนิคและคำเตือนเกี่ยวกับพื้นผิวการโจมตีที่ขยายตัวเมื่อ GPU กลายเป็นศูนย์กลางของโครงสร้างพื้นฐานการคำนวณมากขึ้น แม้ว่าความเสี่ยงในทางปฏิบัติในทันทีดูเหมือนจะจำกัด แต่งานนี้แสดงให้เห็นว่าไม่มีแพลตฟอร์มการคำนวณใดที่ยังคงมีภูมิคุ้มกันต่อเทคนิคการใช้ประโยชน์ระดับฮาร์ดแวร์ที่สร้างสรรค์
อ้างอิง: GPUHammer: Rowhammer Attacks on GPU Memories are Practical