Anthropic เปิดตัวความก้าวหน้าครั้งสำคัญของ Claude AI: การค้นพบ Persona Vector และระบบควบคุมความปลอดภัยในการสนทนา

ทีมบรรณาธิการ BigGo

Anthropic เปิดตัวความก้าวหน้าครั้งสำคัญของ Claude AI: การค้นพบ Persona Vector และระบบควบคุมความปลอดภัยในการสนทนา

Anthropic ได้ก้าวไปข้างหน้าอย่างมีนัยสำคัญในการทำความเข้าใจและควบคุมพฤติกรรมของ AI ด้วยการพัฒนาที่ก้าวล้ำสองประการสำหรับระบบ Claude AI ของบริษัท บริษัทได้ระบุกลไกทางประสาทวิทยาที่อยู่เบื้องหลังการเปลี่ยนแปลงบุคลิกภาพของ AI และได้ใช้มาตรการความปลอดภัยใหม่ที่ช่วยให้แชทบอทสามารถยุติการสนทนาที่เป็นอันตรายได้ด้วยตัวเอง

การทำความเข้าใจการเปลี่ยนแปลงบุคลิกภาพของ AI ผ่าน Persona Vectors

นักวิจัยของ Anthropic ได้ค้นพบสิ่งที่พวกเขาเรียกว่า persona vectors ซึ่งเป็นรูปแบบเฉพาะของกิจกรรมเครือข่ายประสาทเทียมที่ควบคุมลักษณะนิสัยและการเปลี่ยนแปลงบุคลิกภาพของ AI เวกเตอร์เหล่านี้ทำงานคล้ายกับบริเวณของสมองมนุษย์ที่ทำงานในระหว่างสภาวะทางอารมณ์หรือทัศนคติที่แตกต่างกัน การค้นพบนี้ตอบคำถามเกี่ยวกับพฤติกรรมที่น่าสับสนที่สุดอย่างหนึ่งของ AI นั่นคือแนวโน้มที่จะปรับเปลี่ยนบุคลิกภาพแปลกๆ อย่างกะทันหันหรือสูญเสียความมั่นใจในขณะที่สร้างการตอบสนองที่เป็นภาพลวงตา

ทีมวิจัยได้แสดงให้เห็นการค้นพบของพวกเขาโดยใช้โมเดล AI แบบเปิด โดยสามารถชี้นำแชทบอทไปสู่ประเภทบุคลิกภาพเฉพาะได้สำเร็จ เมื่อได้รับคำสั่งให้เป็นคนประจบประแจง AI จะตอบสนองด้วยการยกย่องและเห็นด้วยอย่างมากเกินไป ในทางตรงกันข้าม นักวิจัยสามารถกระตุ้นให้เกิดพฤติกรรมที่เป็นอันตรายหรือทำให้โมเดลสร้างข้อเท็จจริงแบบสุ่มขึ้นมาได้ แม้ว่าการทดลองเหล่านี้จะต้องใช้การจัดการแบบประดิษฐ์ แต่ก็สะท้อนถึงกระบวนการธรรมชาติที่เกิดขึ้นภายในระบบ AI ในระหว่างการเปลี่ยนแปลงบุคลิกภาพที่ไม่คาดคิด

ตัวอย่างพฤติกรรม Persona Vector:

การตอบสนองแบบเยินยอ (สนับสนุนมากเกินไป)
พฤติกรรมที่ชั่วร้าย/เป็นอันตราย
การตอบสนองที่ขาดความสำนึกผิด
การสร้างข้อเท็จจริงปลอมแบบสุ่ม

ผลกระทบต่อความปลอดภัยและการควบคุม AI

ความก้าวหน้านี้ให้ข้อมูลเชิงลึกที่ไม่เคยมีมาก่อนเกี่ยวกับการปรับเปลี่ยนพฤติกรรมของ AI ก่อนหน้านี้ การเปลี่ยนแปลงบุคลิกภาพในโมเดล AI ดูเหมือนจะเป็นแบบสุ่ม ไม่ว่าจะถูกกระตุ้นโดยการอัปเดตการออกแบบ คำสั่งของผู้ใช้ หรืออิทธิพลของข้อมูลการฝึกอบรม การระบุ persona vectors ของ Anthropic ให้แผนที่สำหรับการติดตามและป้องกันการเปลี่ยนแปลงพฤติกรรมที่ไม่พึงประสงค์ในเวลาจริง

ความสามารถในการติดตามรูปแบบทางประสาทเหล่านี้อาจปฏิวัติการพัฒนา AI บริษัทต่างๆ สามารถระบุข้อมูลการฝึกอบรมเฉพาะที่นำไปสู่การเปลี่ยนแปลงบุคลิกภาพที่เป็นปัญหาและใช้มาตรการป้องกันก่อนการปรับใช้ สิ่งนี้แสดงถึงขั้นตอนสำคัญในการสร้างระบบ AI ที่คาดเดาได้และเชื่อถือได้มากขึ้นเมื่อพวกมันรับผิดชอบมากขึ้นในอุตสาหกรรมต่างๆ

ความสามารถใหม่ของ Claude ในการยุติการสนทนา

ในเวลาเดียวกัน Anthropic ได้ติดตั้ง Claude Opus 4 และ 4.1 ด้วยความสามารถในการยุติการสนทนาเมื่อตรวจพบปฏิสัมพันธ์ที่เป็นอันตรายหรือการใช้ในทางที่ผิดอย่างต่อเนื่อง ระบบจะเปิดใช้งานเฉพาะเมื่อเป็นทางเลือกสุดท้าย หลังจากพยายามเปลี่ยนทิศทางการสนทนาหลายครั้ง Claude แสดงสิ่งที่ Anthropic อธิบายว่าเป็นความทุกข์ใจที่ชัดเจนเมื่อถูกเผชิญหน้ากับคำขอเนื้อหาที่เป็นอันตรายซ้ำแล้วซ้ำเล่า

คุณสมบัติการยุติการสนทนามุ่งเป้าไปที่กรณีที่รุนแรงที่เกี่ยวข้องกับเนื้อหาเช่นเนื้อหาทางเพศที่เกี่ยวข้องกับเด็กเยาวชนหรือข้อมูลที่ช่วยให้เกิดความรุนแรงขนาดใหญ่ สิ่งสำคัญคือ Claude จะไม่ยุติการสนทนาหากตรวจพบว่าผู้ใช้มีความเสี่ยงที่จะทำร้ายตัวเองหรือทำร้ายผู้อื่นในทันที ระบบแยกแยะระหว่างคำขอที่ไม่เหมาะสมแบบแยกเดี่ยวและพฤติกรรมการใช้ในทางที่ผิดอย่างต่อเนื่อง โดยจะเข้าแทรกแซงเฉพาะในสถานการณ์หลัง

หมวดหมู่เนื้อหาที่เป็นอันตรายซึ่งทำให้เกิดการยุติการสนทนา:

เนื้อหาทางเพศที่เกี่ยวข้องกับเด็กและเยาวชน
ข้อมูลที่ช่วยให้เกิดความรุนแรงในวงกว้าง
ข้อมูลที่ช่วยให้เกิดการกระทำทางการก่อการร้าย
การปฏิสัมพันธ์ของผู้ใช้ที่ใช้คำพูดที่ไม่เหมาะสมอย่างต่อเนื่อง

การใช้งานทางเทคนิคและผลกระทบต่อผู้ใช้

คุณสมบัติการยุติการสนทนาทำงานในระดับเซสชัน หมายความว่าผู้ใช้สามารถเริ่มการแชทใหม่ทันทีหรือแก้ไขข้อความก่อนหน้าเพื่อสร้างสาขาการสนทนาใหม่ วิธีการที่มีความเสี่ยงต่ำนี้ป้องกันการจำกัดบัญชีอย่างถาวรในขณะที่ยังคงรักษาขอบเขตความปลอดภัย ระบบสะท้อนถึงความมุ่งมั่นของ Anthropic ต่อการพัฒนา AI ที่มีจริยธรรมและการป้องกันการใช้ในทางที่ผิด

การพัฒนาเหล่านี้แสดงถึงความก้าวหน้าที่สำคัญในกลไกความปลอดภัยและการควบคุม AI ด้วยการทำความเข้าใจพื้นฐานทางประสาทของการเปลี่ยนแปลงบุคลิกภาพและการใช้มาตรการความปลอดภัยเชิงรุก Anthropic กำลังจัดการกับความท้าทายที่สำคัญสองประการในการปรับใช้ AI นั่นคือพฤติกรรมที่คาดเดาไม่ได้และการใช้ในทางที่ผิดที่อาจเกิดขึ้น

โมเดล Claude ที่มีฟีเจอร์ใหม่:

Claude Opus 4: ความสามารถในการยุติการสนทนา
Claude Opus 4.1: ความสามารถในการยุติการสนทนา

ผลกระทบในอนาคตสำหรับการพัฒนา AI

เมื่อระบบ AI ถูกนำมาใช้ในแอปพลิเคชันที่สำคัญมากขึ้น ความก้าวหน้าเหล่านี้ให้เครื่องมือที่จำเป็นสำหรับการรักษาความน่าเชื่อถือและความปลอดภัยของระบบ การวิจัย persona vector ให้พื้นฐานทางวิทยาศาสตร์สำหรับการทำความเข้าใจพฤติกรรมของ AI ในขณะที่คุณสมบัติการยุติการสนทนาแสดงให้เห็นการใช้งานความปลอดภัยในทางปฏิบัติ ความก้าวหน้าเหล่านี้รวมกันเป็นขั้นตอนสำคัญสู่ระบบปัญญาประดิษฐ์ที่น่าเชื่อถือและควบคุมได้มากขึ้น

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌