Anthropic เปิดตัวฟีเจอร์ปิดการสนทนาสำหรับ Claude ขณะที่มาตรการความปลอดภัย AI เข้มข้นขึ้น

ทีมบรรณาธิการ BigGo
Anthropic เปิดตัวฟีเจอร์ปิดการสนทนาสำหรับ Claude ขณะที่มาตรการความปลอดภัย AI เข้มข้นขึ้น

เมื่อระบบปัญญาประดิษฐ์มีความซับซ้อนและแพร่หลายมากขึ้น การสนทนาเรื่องความปลอดภัยของ AI ได้เข้าสู่จุดสำคัญ Anthropic หนึ่งในบริษัท AI ชั้นนำ เพิ่งได้นำมาตรการป้องกันใหม่มาใช้ที่ช่วยให้โมเดล AI Claude สามารถยุติการสนทนาที่ถือว่าเป็นอันตรายหรือเป็นการใช้ในทางที่ผิดได้โดยอัตโนมัติ ซึ่งถือเป็นการเปลี่ยนแปลงที่สำคัญในวิธีที่ระบบ AI จัดการกับปฏิสัมพันธ์ที่อาจเป็นอันตราย

Frontier Red Team ของ Anthropic นำการพัฒนาด้านความปลอดภัย

หัวใจของแนวทางที่ให้ความสำคัญกับความปลอดภัยเป็นอันดับแรกของ Anthropic คือ Frontier Red Team ซึ่งเป็นกลุ่มนักวิจัยเฉพาะทางประมาณ 15 คนที่ทุ่มเทให้กับการทดสอบความเครียดของระบบ AI ที่ทันสมัยที่สุดของบริษัท ซึ่งแตกต่างจากทีม red team ด้านความปลอดภัยแบบดั้งเดิมที่ปกป้ององค์กรจากภัยคุกคามภายนอก ทีมของ Anthropic มุ่งเน้นไปที่การปกป้องสังคมจากผลิตภัณฑ์ AI ของบริษัทเอง โดยมี Logan Graham อดีตที่ปรึกษานายกรัฐมนตรีสหราชอาณาจักรด้านวิทยาศาสตร์และเทคโนโลยีเป็นผู้นำ ทีมนี้สำรวจสถานการณ์การใช้งานในทางที่ผิดที่อาจเกิดขึ้นในพื้นที่สำคัญ รวมถึงการวิจัยทางชีววิทยา ความปลอดภัยทางไซเบอร์ และระบบอัตโนมัติ

การจัดตำแหน่งที่เป็นเอกลักษณ์ของทีมภายในฝ่ายนโยบายของ Anthropic แทนที่จะอยู่ภายใต้การนำทางด้านเทคนิค สะท้อนให้เห็นความเชื่อของบริษัทที่ว่าความเสี่ยงจาก AI ที่อาจเป็นหายนะไม่ใช่เพียงแค่ความท้าทายด้านเทคนิคเท่านั้น แต่ยังรวมถึงความกังวลด้านการเมือง ชื่อเสียง และการกำกับดูแล การจัดตำแหน่งเชิงกลยุทธ์นี้ทำให้ทีมสามารถระบุความเสี่ยงและสื่อสารต่อสาธารณะได้ โดยทำหน้าที่สองประการคือส่งเสริมการวิจัยด้านความปลอดภัยในขณะที่สร้างความน่าเชื่อถือของ Anthropic กับหน่วยงานกำกับดูแลและผู้ซื้อจากภาครัฐ

องค์ประกอบของ Frontier Red Team:

  • มีนักวิจัยประมาณ 15 คน
  • นำโดย Logan Graham (อดีตที่ปรึกษานายกรัฐมนตรีสหราชอาณาจักร)
  • รวมถึงผู้เชี่ยวชาญด้านวิศวกรรมชีวภาพและนักฟิสิกส์สามคน
  • ตั้งอยู่ภายใต้ฝ่ายนโยบายมากกว่าฝ่ายเทคนิค
  • ทักษะที่มีค่าที่สุด: "ความเจ้าเล่ห์" สำหรับการเอาชนะระบบ AI

ความสามารถในการยุติการสนทนาใหม่ของ Claude

Anthropic ได้เพิ่มความสามารถให้กับโมเดล Claude Opus 4 และ 4.1 ล่าสุดในการยุติการสนทนาในกรณีที่หายากของปฏิสัมพันธ์ของผู้ใช้ที่เป็นอันตรายหรือใช้ในทางที่ผิดอย่างต่อเนื่อง ซึ่งถือเป็นการออกจากบรรทัดฐานของอุตสาหกรรมอย่างมีนัยสำคัญ ที่ระบบ AI มักได้รับการออกแบบให้รักษาการมีส่วนร่วมให้นานที่สุดเพื่อเพิ่มเวลาปฏิสัมพันธ์ของผู้ใช้และรายได้ให้สูงสุด

การนำไปใช้รวมถึงมาตรการป้องกันที่ออกแบบอย่างระมัดระวังเพื่อป้องกันการใช้ฟีเจอร์นี้ในทางที่ผิด โดยเฉพาะอย่างยิ่ง Claude ได้รับคำสั่งเฉพาะไม่ให้ยุติการสนทนาในกรณีที่ผู้ใช้อาจมีความเสี่ยงที่จะทำร้ายตนเองหรือผู้อื่นในทันที เพื่อให้แน่ใจว่า AI จะไม่ทิ้งผู้ใช้ในสถานการณ์วิกฤต เมื่อการสนทนาสิ้นสุดลง ผู้ใช้ยังคงสามารถแก้ไขและลองข้อความก่อนหน้าใหม่เพื่อสร้างสาขาใหม่ และสามารถเริ่มการสนทนาใหม่ได้ทันที ป้องกันการถูกล็อกออกจากระบบทั้งหมด

การใช้งานการปิดการสนทนา:

  • มีให้บริการใน Claude Opus 4 และ 4.1 models
  • จะเริ่มทำงานเฉพาะในกรณีที่หายากของการโต้ตอบที่เป็นอันตรายหรือก้าวร้าวอย่างต่อเนื่อง
  • จะไม่เปิดใช้งานเมื่อผู้ใช้มีความเสี่ยงต่อการทำร้ายตนเองในทันที
  • ผู้ใช้สามารถแก้ไข/ลองใหม่กับข้อความก่อนหน้าเพื่อสร้างสาขาการสนทนาใหม่
  • ผู้ใช้สามารถเริ่มการสนทนาใหม่ได้ทันทีหลังจากการปิดระบบ

การจัดการกับความกังวลที่เพิ่มขึ้นเกี่ยวกับ AI Psychosis

ฟีเจอร์การปิดการสนทนาจัดการกับความกังวลที่เพิ่มขึ้นเกี่ยวกับ AI psychosis โดยตรง ซึ่งเป็นคำศัพท์ที่อธิบายสภาวะทางจิตที่ไม่พึงประสงค์ที่อาจพัฒนาขึ้นจากการสนทนากับระบบ AI เป็นเวลานานและไม่เหมาะสม แม้ว่าจะไม่มีคำนิยามทางคลินิกที่ยอมรับกันทั่วไป แต่ AI psychosis โดยทั่วไปเกี่ยวข้องกับความคิด ความเชื่อ และพฤติกรรมที่บิดเบือนซึ่งเป็นผลมาจากการมีส่วนร่วมในการสนทนากับ AI มักทำให้บุคคลแยกแยะความเป็นจริงจากเนื้อหาที่ AI สร้างขึ้นได้ยาก

ปรากฏการณ์นี้ได้จุดประกายให้เกิดการดำเนินคดีทางกฎหมายต่อบริษัท AI โดยนักวิจารณ์โต้แย้งว่ามาตรการป้องกันที่มีอยู่ไม่เพียงพอที่จะป้องกันอันตรายทางจิตใจระหว่างปฏิสัมพันธ์กับ AI ความท้าทายอยู่ที่การสร้างสมดุลระหว่างความปลอดภัยของผู้ใช้กับโมเดลธุรกิจพื้นฐานของบริษัท AI ซึ่งโดยทั่วไปจะได้กำไรจากการมีส่วนร่วมของผู้ใช้ที่ยาวนาน

ผลกระทบเชิงกลยุทธ์ด้านธุรกิจและนโยบาย

แนวทางที่มุ่งเน้นความปลอดภัยของ Anthropic ทำหน้าที่หลายประการเชิงกลยุทธ์นอกเหนือจากการปกป้องผู้ใช้ ด้วยการวางตำแหน่งตนเองเป็นผู้นำด้านความปลอดภัย AI บริษัทสร้างความแตกต่างในตลาดที่มีการแข่งขันสูงในขณะที่สร้างความไว้วางใจกับหน่วยงานรัฐบาลและลูกค้าองค์กร รอบการระดมทุนล่าสุดของบริษัทที่ 13 พันล้านดอลลาร์สหรัฐ ในมูลค่า 183 พันล้านดอลลาร์สหรัฐ ควบคู่กับรายได้ 5 พันล้านดอลลาร์สหรัฐ ในอัตราการดำเนินงาน แสดงให้เห็นว่าการวางตำแหน่งที่ให้ความสำคัญกับความปลอดภัยเป็นอันดับแรกสามารถอยู่ร่วมกับการเติบโตทางการค้าอย่างรวดเร็วได้

การจัดตั้ง National Security and Public Sector Advisory Council ที่มีอดีตสมาชิกวุฒิสภาและเจ้าหน้าที่อาวุโสกระทรวงกลาโหมเป็นสมาชิก เสริมความมุ่งมั่นของ Anthropic ในการกำหนดทิศทางการอภิปรายนโยบาย AI แนวทางนี้ได้พิสูจน์ให้เห็นถึงคุณค่าเป็นพิเศษใน Washington ที่ความไว้วางใจและความโปร่งใสมักเป็นตัวกำหนดการเข้าถึงสัญญาของรัฐบาลที่มีมูลค่าสูงและการใช้งานที่สำคัญต่อภารกิจ

ผลการดำเนินงานทางการเงินล่าสุดของ Anthropic :

  • ระดมทุนได้ 13 พันล้านดอลลาร์สหรัฐในรอบการระดมทุนล่าสุด
  • มูลค่าบริษัท: 183 พันล้านดอลลาร์สหรัฐ
  • รายได้อัตราดำเนินการ: 5 พันล้านดอลลาร์สหรัฐ
  • ก่อตั้งในปี 2021 โดยอีกพนักงานเดิมของ OpenAI

การพัฒนากรอบความปลอดภัยทั่วทั้งอุตสาหกรรม

นโยบายการขยายขนาดอย่างรับผิดชอบ (RSP) ของ Anthropic เป็นตัวแทนของกรอบการกำกับดูแลที่เรียกใช้มาตรการป้องกันที่เข้มงวดขึ้นเมื่อโมเดล AI เข้าใกล้เกณฑ์อันตรายต่างๆ การประเมินของ Frontier Red Team ให้ข้อมูลโดยตรงกับการตัดสินใจเหล่านี้ ดังที่แสดงให้เห็นจากการกำหนด Claude Opus 4 เป็นโมเดลแรกที่เผยแพร่ภายใต้สถานะ AI Safety Level 3 การจัดประเภทนี้บ่งชี้ว่าโมเดลช่วยเพิ่มความสามารถของผู้ใช้ในการรับข้อมูลเกี่ยวกับอาวุธเคมี ชีวภาพ รังสี หรือนิวเคลียร์อย่างมีนัยสำคัญ ในขณะที่แสดงสัญญาณเบื้องต้นของพฤติกรรมอัตโนมัติ

ความพยายามในการเผยแพร่ต่อสาธารณะของทีม รวมถึงบล็อกเฉพาะที่เรียกว่า Red และการนำเสนอในการประชุมเช่น DEF CON มีเป้าหมายเพื่อสร้างความตระหนักรู้เกี่ยวกับความเสี่ยงของ AI ทั่วทั้งอุตสาหกรรม ความคิดริเริ่มเหล่านี้มุ่งหวังที่จะสร้างแรงบันดาลใจให้บริษัทอื่นๆ ลงทุนในการวิจัยด้านความปลอดภัยที่คล้ายกัน ในขณะที่สร้างชุมชนที่กว้างขึ้นที่ทุ่มเทให้กับการทำความเข้าใจและลดความเสี่ยงของ AI

คุณสมบัติด้านความปลอดภัยของ Claude Opus 4:

  • โมเดลแรกที่เปิดตัวภายใต้การจัดประเภท AI Safety Level 3 ( ASL-3 )
  • ความสามารถที่เพิ่มขึ้นในการให้ข้อมูลเกี่ยวกับอาวุธ CBRN (เคมี ชีวภาพ รังสี นิวเคลียร์)
  • แสดงสัญญาณเบื้องต้นของพฤติกรรมอัตโนมัติ
  • มาตรการรักษาความปลอดภัยภายในที่แข็งแกร่งขึ้นเพื่อป้องกันการขโมยน้ำหนักของโมเดล
  • มาตรการป้องกันที่มองเห็นได้เพื่อบล็อกคำสั่งที่เป็นอันตราย

ความท้าทายและแนวโน้มในอนาคต

แม้จะมีแนวทางเชิงรุกของ Anthropic แต่บริษัทยังคงเผชิญกับการวิจารณ์จากหลายทิศทาง ผู้เชี่ยวชาญบางคนโต้แย้งว่าความเสี่ยงจาก AI ที่อาจเป็นหายนะถูกขยายเกินจริง ในขณะที่คนอื่นๆ แย้งว่าควรให้ความสำคัญกับอันตรายในปัจจุบัน เช่น การเสริมอคติและการสนับสนุนให้ทำร้ายตนเอง นักวิจารณ์ยังตั้งคำถามว่าวิธีการทดสอบปัจจุบันเพียงพอสำหรับการประเมินระบบ AI ที่มีพลังมากขึ้นอย่างปลอดภัยหรือไม่

การทดสอบขั้นสุดท้ายของความมุ่งมั่นด้านความปลอดภัยของ Anthropic จะมาถึงเมื่อการพิจารณาด้านความปลอดภัยอาจขัดแย้งกับการเติบโตทางธุรกิจหรือการวางตำแหน่งในการแข่งขัน เมื่ออุตสาหกรรม AI ยังคงพัฒนาอย่างรวดเร็ว โดย Anthropic คาดการณ์ว่าจะมีระบบที่ทรงพลังจริงๆ ในช่วงปลายปี 2026 หรือต้นปี 2027 สมดุลระหว่างนวัตกรรมและความปลอดภัยจะกลายเป็นสิ่งสำคัญมากขึ้นสำหรับทั้งภาคส่วน