การถกเถียงเรื่องความปลอดภัย AI ร้อนแรงขึ้น เมื่อนักวิจัยท้าทายกรอบ "Rule of Two"

ทีมชุมชน BigGo
การถกเถียงเรื่องความปลอดภัย AI ร้อนแรงขึ้น เมื่อนักวิจัยท้าทายกรอบ "Rule of Two"

ในโลกของปัญญาประดิษฐ์ที่พัฒนาอย่างรวดเร็ว กรอบความปลอดภัยใหม่ได้จุดประกายการถกเถียงอย่างเข้มข้นในหมู่ผู้พัฒนาและผู้เชี่ยวชาญด้านความปลอดภัย การอภิปรายมุ่งเน้นไปที่ว่ากฎ Rule of Two ที่เสนอมาสามารถปกป้องระบบ AI จากภัยคุกคาม prompt injection ได้อย่างเพียงพอหรือไม่ หรือว่ามันทำให้ความท้าทายด้านความปลอดภัยที่ซับซ้อนของแอปพลิเคชัน AI สมัยใหม่ดูง่ายเกินไป

กรอบความปลอดภัยหลักที่กำลังถูกตรวจสอบ

Agents Rule of Two เสนอว่าระบบ AI ควรรวมความสามารถที่อาจเป็นอันตรายเพียงสองในสามอย่างเท่านั้น ได้แก่ การประมวลผลข้อมูลนำเข้าที่ไม่น่าเชื่อถือ การเข้าถึงระบบหรือข้อมูลที่สำคัญ และการเปลี่ยนสถานะหรือการสื่อสารภายนอก กรอบงานนี้ซึ่งพัฒนาโดยนักวิจัย Meta AI มีเป้าหมายเพื่อป้องกันผลกระทบร้ายแรงที่สุดของการโจมตีแบบ prompt injection อย่างไรก็ตาม ชุมชนความปลอดภัยได้แสดงความกังวลอย่างมีนัยสำคัญว่าวิธีการนี้ให้การป้องกันที่เพียงพอหรือไม่ ผู้เชี่ยวชาญหลายคนแย้งว่าระบบที่ปฏิบัติตามกฎนี้ยังคงสามารถสร้างความเสียหายได้อย่างมาก โดยเฉพาะเมื่อรวมข้อมูลนำเข้าที่ไม่น่าเชื่อถือกับความสามารถในการเปลี่ยนสถานะของระบบ

แม้ไม่มีการเข้าถึงระบบส่วนตัวหรือข้อมูลสำคัญ การจับคู่นั้นยังคงสามารถสร้างผลลัพธ์ที่เป็นอันตรายได้

กรอบแนวคิด Agents Rule of Two:

  • Property A: ประมวลผลข้อมูลนำเข้าที่ไม่น่าเชื่อถือ
  • Property B: เข้าถึงระบบที่มีความอำคัญหรือข้อมูลส่วนตัว
  • Property C: เปลี่ยนแปลงสถานะหรือสื่อสารกับภายนอก
  • หลักการหลัก: หลีกเลี่ยงการรวมคุณสมบัติทั้งสามเข้าด้วยกันในเซสชันเดียว เพื่อป้องกันผลที่ตามมาที่รุนแรงจากการโจมตีแบบ prompt injection

ข้อจำกัดทางเทคนิคและความกังวลในทางปฏิบัติ

ผู้เชี่ยวชาญด้านความปลอดภัยได้ระบุข้อบกพร่องสำคัญหลายประการในโมเดลแบบง่าย แผนภาพเดิมของกรอบงานได้ระบุว่าชุดค่าผสมบางอย่างปลอดภัย ซึ่งผู้แสดงความคิดเห็นหลายคนพบว่าทำให้เข้าใจผิด กังวลหลักประการหนึ่งคือโมเดลเองเป็นส่วนประกอบที่ไม่น่าเชื่อถือ เนื่องจากข้อมูลการฝึกอบรมอาจมีช่องโหว่หรือ backdoor ที่ซ่อนอยู่ อีกปัญหาสำคัญเกี่ยวข้องกับความสมบูรณ์ของข้อมูล – ศักยภาพของระบบ AI ในการแก้ไขข้อมูลส่วนตัวระหว่างการประมวลผล ไม่เพียงแต่การส่งข้อมูลออกนอกเท่านั้น ชุมชนยังเน้นย้ำว่าการโจมตีแบบ prompt injection สามารถจัดการกับผู้ปฏิบัติงานมนุษย์ได้แม้ไม่มีการเข้าถึงเครื่องมือโดยตรง สร้างความเสี่ยงที่ Rule of Two ไม่ได้จัดการอย่างเหมาะสม

ข้อกังวลหลักของชุมชน:

  • น้ำหนักของโมเดลเองถือเป็นข้อมูลที่ไม่น่าเชื่อถือเนื่องจากปัญหาที่อาจเกิดขึ้นจากข้อมูลการฝึก
  • ความเสี่ยงด้านความสมบูรณ์ของข้อมูล (การแก้ไขระหว่างการประมวลผล) ยังไม่ได้รับการแก้ไขอย่างเต็มที่
  • การจัดการโดยผู้ปฏิบัติงานมนุษย์ยังคงเป็นไปได้แม้ว่าจะไม่มีการเข้าถึงเครื่องมือ
  • การทำให้เรียบง่ายเกินไปอาจนำไปสู่ความประมาทในด้านความปลอดภัยที่เป็นอันตราย

แนวทางความปลอดภัยทางเลือกเริ่มปรากฏ

ผู้แสดงความคิดเห็นหลายคนแนะนำว่าแนวคิดความปลอดภัยแบบดั้งเดิมอย่าง taint tracking อาจให้การป้องกันที่แข็งแกร่งกว่า วิธีการนี้เกี่ยวข้องกับการทำเครื่องหมายข้อมูลที่ไม่น่าเชื่อถือและติดตามผ่านการดำเนินการของระบบ ป้องกันไม่ให้ข้อมูลที่ปนเปื้อนส่งผลกระทบต่อฟังก์ชันที่สำคัญ การอภิปรายยังกล่าวถึงระบบ CaMeL ของ Google DeepMind ซึ่งใช้การสร้างโค้ดที่ปฏิบัติการได้เพื่อแยกการประมวลผลข้อมูลที่น่าเชื่อถือและไม่น่าเชื่อถือ ผู้เชี่ยวชาญหลายคนเน้นย้ำว่าหลักการด้านความปลอดภัยทางไซเบอร์ที่มีอยู่ไม่ควรถูกทิ้งไปเพื่อกรอบงานเฉพาะสำหรับ AI โดยให้เหตุผลว่าการปฏิบัติด้านความปลอดภัยพื้นฐานยังคงมีความเกี่ยวข้องไม่ว่าเทคโนโลยีที่เกี่ยวข้องจะเป็นอะไร

การสำรวจแนวทางด้านความปลอดภัยทางเลือกใน AI: ความสำคัญของวิธีการแบบดั้งเดิมอย่าง taint tracking ในการป้องกันช่องโหว่
การสำรวจแนวทางด้านความปลอดภัยทางเลือกใน AI: ความสำคัญของวิธีการแบบดั้งเดิมอย่าง taint tracking ในการป้องกันช่องโหว่

ปัจจัยมนุษย์ในความปลอดภัย AI

ธีมที่ปรากฏซ้ำในการอภิปรายเกี่ยวข้องกับบทบาทของมนุษย์ในระบบความปลอดภัย AI ผู้แสดงความคิดเห็นบางคนระบุว่าการขอการอนุมัติจากมนุษย์สำหรับการดำเนินการบางอย่างสร้างระบบที่มีมนุษย์อยู่ในกระบวนการ ซึ่งอาจบั่นทอนประโยชน์ด้านประสิทธิภาพของการทำงานอัตโนมัติ คนอื่นชี้ให้เห็นว่าผู้ปฏิบัติงานมนุษย์มักกลายเป็นเพียงผู้ตรวจสอบ ซึ่งอาจอนุมัติการตัดสินใจของ AI อย่างง่ายๆ โดยไม่มีกำกับดูแลที่มีความหมาย สิ่งนี้ทำให้เกิดคำถามว่าธุรกิจจะให้ความสำคัญกับความปลอดภัยเหนือความสะดวกสบายเมื่อนำระบบ AI ไปใช้ในสถานการณ์จริงหรือไม่

อัตราความสำเร็จของการโจมตีแบบปรับตัวจากงานวิจัย:

  • Human red-teaming: อัตราความสำเร็จ 100% ต่อการป้องกัน 12 แบบ
  • วิธีการอัตโนมัติ: ความสำเร็จสูงกว่า 90% สำหรับการป้องกันส่วนใหญ่
  • Reinforcement learning: มีประสิทธิภาพสูงโดยเฉพาะกับโมเดลแบบ black-box
  • วิธีการค้นหา: ใช้ LLM-as-judge เพื่อประเมินและปรับเปลี่ยนตัวเลือกการโจมตี

ผลกระทบที่กว้างขึ้นสำหรับการพัฒนา AI

การถกเถียงขยายเกินกว่าลายละเอียดทางเทคนิคไปสู่คำถามพื้นฐานเกี่ยวกับวิธีที่เราสร้างและใช้งานระบบ AI ผู้แสดงความคิดเห็นบางคนเปรียบเทียบ Rule of Two กับทฤษฎีบท CAP ในระบบกระจาย – ซึ่งเป็นกรอบงานทางทฤษฎีที่มีประโยชน์แต่ไม่สอดคล้องกับงานปฏิบัติอย่างสมบูรณ์ คนอื่นแสดงความกังวลว่าโมเดลความปลอดภัยที่ทำให้ง่ายเกินไปอาจนำไปสู่ความพึงพอใจที่อันตราย โดยเฉพาะเมื่อผู้นำธุรกิจอาจตีความป้ายปลอดภัยตามตัวอักษรเกินไป การอภิปรายชี้ให้เห็นว่าชุมชนความปลอดภัย AI ยังคงต่อสู้กับวิธีสร้างสมดุลระหว่างโมเดลทางทฤษฎีกับข้อกำหนดความปลอดภัยในทางปฏิบัติ

การสนทนาที่กำลังดำเนินอยู่เผยให้เห็นชุมชนที่มีส่วนร่วมอย่างลึกซึ้งกับความท้าทายด้านความปลอดภัยของระบบ AI แม้กรอบงานอย่าง Rule of Two จะให้จุดเริ่มต้นที่มีประโยชน์สำหรับการอภิปราย แต่ผู้เชี่ยวชาญด้านความปลอดภัยตระหนักว่าการป้องกันในโลกจริงต้องการแนวทางที่มีความละเอียดอ่อนมากกว่า เมื่อระบบ AI ถูกบูรณาการเข้ากับฟังก์ชันทางธุรกิจที่สำคัญมากขึ้นเรื่อยๆ ความต้องการกลยุทธ์ความปลอดภัยที่แข็งแกร่งและครอบคลุมจึงชัดเจนมากกว่าที่เคย การมีส่วนร่วมอย่างมีวิจารณญาณของชุมชนกับโซลูชันที่เสนอแสดงให้เห็นถึงความสงสัยที่ดีต่อสุขภาพซึ่งน่าจะขับเคลื่อนการปฏิบัติด้านความปลอดภัยที่ดีขึ้นในระยะยาว

อ้างอิง: New prompt injection papers: Agents Rule of Two and The Attacker Moves Second