เครื่องมือ Ruby ใหม่ที่เรียกว่า Top Secret ได้เกิดขึ้นเพื่อช่วยนักพัฒนากรองข้อมูลที่มีความอ่อนไหวออกจากข้อความก่อนส่งไปยัง chatbot และโมเดลภาษาขนาดใหญ่ เครื่องมือนี้รวม regular expression เข้ากับ named-entity recognition (NER) เพื่อระบุและลบข้อมูลส่วนบุคคลเช่นหมายเลขบัตรเครดิต อีเมล และรายละเอียดที่มีความอ่อนไหวอื่นๆ ออกจากข้อความแบบอิสระ
สถาปัตยกรรมทางเทคนิค:
- ใช้โมเดล MITIE (MIT Information Extraction) สำหรับการจดจำเอนทิตีที่มีชื่อเรียก
- รวมรูปแบบ regex เข้ากับเอนทิตี NER เพื่อการกรองข้อมูล
- มีฟังก์ชันการแมปเพื่อคืนค่าที่ถูกกรองกลับมา
- เบากว่าโซลูชันที่ใช้ LLM (word embeddings + SVM classifiers)
ข้อกังวลเรื่องประสิทธิภาพครองใจการอภิปราย
ชุมชนนักพัฒนาได้ตั้งคำถามสำคัญเกี่ยวกับประสิทธิภาพของเครื่องมือในการใช้งานจริง ผู้ใช้มีความกังวลเป็นพิเศษเกี่ยวกับเวลาในการประมวลผล โดยเฉพาะในสภาพแวดล้อมการใช้งานจริงที่จัดการกับการสนทนายาวๆ เครื่องมือนี้ใช้โมเดล MITIE สำหรับ NER ซึ่งมีน้ำหนักเบากว่าโมเดลภาษาแบบเต็ม แต่ยังคงต้องใช้ทรัพยากรการคำนวณสำหรับการกรองแต่ละครั้ง
MITIE (MIT Information Extraction) ใช้ word embedding กับ SVM classifier แทนที่จะเป็น neural network หนัก ทำให้เร็วกว่าแต่อาจแม่นยำน้อยกว่าแนวทางสมัยใหม่
ข้อจำกัดหลักที่ระบุได้:
- ความแม่นยำของ NER แตกต่างกันอย่างมีนัยสำคัญในแต่ละโดเมน
- ข้อกังวลด้านประสิทธิภาพสำหรับสภาพแวดล้อมการผลิตที่มีปริมาณงานสูง
- เอกสารการประเมิน MITIE อัปเดตครั้งล่าสุดเมื่อประมาณ 10 ปีที่แล้ว
- ไม่รับประกันการตรวจจับข้อมูลที่ละเอียดอ่อน 100%
ข้อจำกัดด้านความแม่นยำจุดประกายการถกเถียง
สมาชิกในชุมชนได้เน้นย้ำว่าโมเดล NER มักจะมีปัญหาความแม่นยำในโดเมนต่างๆ หน้าการประเมิน MITIE พื้นฐานไม่ได้รับการอัปเดตมาเกือบทศวรรษ ทำให้เกิดคำถามเกี่ยวกับประสิทธิผลของโมเดลกับประเภทข้อมูลและรูปแบบปัจจุบัน นักพัฒนาคนหนึ่งได้เน้นประเด็นสำคัญเกี่ยวกับความสามารถของเครื่องมือ:
สิ่งนี้ยอดเยี่ยม แต่มันไม่ได้ป้องกัน มันลดโอกาสเท่านั้น NER ไม่ได้มีประสิทธิภาพ 100% มันดีมากในหลายกรณี แต่ใช้ด้วยความระมัดระวัง!
โซลูชันทางเลือกและกรณีการใช้งาน
การอภิปรายได้เปิดเผยแนวทางทางเลือกต่างๆ และการประยุกต์ใช้ที่เป็นไปได้ นักพัฒนาบางคนได้สร้างเครื่องมือคล้ายกันในภาษาโปรแกรมอื่นๆ ในขณะที่คนอื่นๆ แนะนำโซลูชันระดับฐานข้อมูลเช่น extension anonymizer ของ PostgreSQL ที่น่าสนใจคือหน่วยงานรัฐบาลเช่น US Marshalls ได้แสดงความสนใจในเทคโนโลยีการปิดบังอัตโนมัติสำหรับขั้นตอนการทำงานของพวกเขา
ชุมชนยังได้สำรวจการประยุกต์ใช้ที่ทะเยอทะยานมากขึ้น เช่น ตัวกรองการแชร์หน้าจอแบบเรียลไทม์ที่สามารถป้องกันการรั่วไหลของข้อมูลโดยไม่ตั้งใจระหว่างการโทรวิดีโอหรือการถ่ายทอดสด แม้ว่าความท้าทายทางเทคนิคสำหรับการดำเนินการดังกล่าวยังคงมีอยู่อย่างมาก
การสนทนาสะท้อนถึงความต้องการของอุตสาหกรรมในวงกว้างสำหรับเครื่องมือป้องกันข้อมูลที่ดีขึ้น เมื่อการรวม AI และ chatbot กลายเป็นเรื่องธรรมดามากขึ้น ในขณะที่ Top Secret เสนอโซลูชันที่ใช้งานได้จริง ข้อเสนอแนะจากชุมชนแนะนำว่าองค์กรควรมองมันเป็นหนึ่งชั้นในกลยุทธ์การป้องกันข้อมูลแบบครอบคลุม มากกว่าโซลูชันที่สมบูรณ์
อ้างอิง: Introducing Top Secret