เครื่องมือ Top Secret เผชิญคำถามเรื่องประสิทธิภาพและความแม่นยำจากชุมชนนักพัฒนา

ทีมชุมชน BigGo
เครื่องมือ Top Secret เผชิญคำถามเรื่องประสิทธิภาพและความแม่นยำจากชุมชนนักพัฒนา

เครื่องมือ Ruby ใหม่ที่เรียกว่า Top Secret ได้เกิดขึ้นเพื่อช่วยนักพัฒนากรองข้อมูลที่มีความอ่อนไหวออกจากข้อความก่อนส่งไปยัง chatbot และโมเดลภาษาขนาดใหญ่ เครื่องมือนี้รวม regular expression เข้ากับ named-entity recognition (NER) เพื่อระบุและลบข้อมูลส่วนบุคคลเช่นหมายเลขบัตรเครดิต อีเมล และรายละเอียดที่มีความอ่อนไหวอื่นๆ ออกจากข้อความแบบอิสระ

สถาปัตยกรรมทางเทคนิค:

  • ใช้โมเดล MITIE (MIT Information Extraction) สำหรับการจดจำเอนทิตีที่มีชื่อเรียก
  • รวมรูปแบบ regex เข้ากับเอนทิตี NER เพื่อการกรองข้อมูล
  • มีฟังก์ชันการแมปเพื่อคืนค่าที่ถูกกรองกลับมา
  • เบากว่าโซลูชันที่ใช้ LLM (word embeddings + SVM classifiers)

ข้อกังวลเรื่องประสิทธิภาพครองใจการอภิปราย

ชุมชนนักพัฒนาได้ตั้งคำถามสำคัญเกี่ยวกับประสิทธิภาพของเครื่องมือในการใช้งานจริง ผู้ใช้มีความกังวลเป็นพิเศษเกี่ยวกับเวลาในการประมวลผล โดยเฉพาะในสภาพแวดล้อมการใช้งานจริงที่จัดการกับการสนทนายาวๆ เครื่องมือนี้ใช้โมเดล MITIE สำหรับ NER ซึ่งมีน้ำหนักเบากว่าโมเดลภาษาแบบเต็ม แต่ยังคงต้องใช้ทรัพยากรการคำนวณสำหรับการกรองแต่ละครั้ง

MITIE (MIT Information Extraction) ใช้ word embedding กับ SVM classifier แทนที่จะเป็น neural network หนัก ทำให้เร็วกว่าแต่อาจแม่นยำน้อยกว่าแนวทางสมัยใหม่

ข้อจำกัดหลักที่ระบุได้:

  • ความแม่นยำของ NER แตกต่างกันอย่างมีนัยสำคัญในแต่ละโดเมน
  • ข้อกังวลด้านประสิทธิภาพสำหรับสภาพแวดล้อมการผลิตที่มีปริมาณงานสูง
  • เอกสารการประเมิน MITIE อัปเดตครั้งล่าสุดเมื่อประมาณ 10 ปีที่แล้ว
  • ไม่รับประกันการตรวจจับข้อมูลที่ละเอียดอ่อน 100%

ข้อจำกัดด้านความแม่นยำจุดประกายการถกเถียง

สมาชิกในชุมชนได้เน้นย้ำว่าโมเดล NER มักจะมีปัญหาความแม่นยำในโดเมนต่างๆ หน้าการประเมิน MITIE พื้นฐานไม่ได้รับการอัปเดตมาเกือบทศวรรษ ทำให้เกิดคำถามเกี่ยวกับประสิทธิผลของโมเดลกับประเภทข้อมูลและรูปแบบปัจจุบัน นักพัฒนาคนหนึ่งได้เน้นประเด็นสำคัญเกี่ยวกับความสามารถของเครื่องมือ:

สิ่งนี้ยอดเยี่ยม แต่มันไม่ได้ป้องกัน มันลดโอกาสเท่านั้น NER ไม่ได้มีประสิทธิภาพ 100% มันดีมากในหลายกรณี แต่ใช้ด้วยความระมัดระวัง!

โซลูชันทางเลือกและกรณีการใช้งาน

การอภิปรายได้เปิดเผยแนวทางทางเลือกต่างๆ และการประยุกต์ใช้ที่เป็นไปได้ นักพัฒนาบางคนได้สร้างเครื่องมือคล้ายกันในภาษาโปรแกรมอื่นๆ ในขณะที่คนอื่นๆ แนะนำโซลูชันระดับฐานข้อมูลเช่น extension anonymizer ของ PostgreSQL ที่น่าสนใจคือหน่วยงานรัฐบาลเช่น US Marshalls ได้แสดงความสนใจในเทคโนโลยีการปิดบังอัตโนมัติสำหรับขั้นตอนการทำงานของพวกเขา

ชุมชนยังได้สำรวจการประยุกต์ใช้ที่ทะเยอทะยานมากขึ้น เช่น ตัวกรองการแชร์หน้าจอแบบเรียลไทม์ที่สามารถป้องกันการรั่วไหลของข้อมูลโดยไม่ตั้งใจระหว่างการโทรวิดีโอหรือการถ่ายทอดสด แม้ว่าความท้าทายทางเทคนิคสำหรับการดำเนินการดังกล่าวยังคงมีอยู่อย่างมาก

การสนทนาสะท้อนถึงความต้องการของอุตสาหกรรมในวงกว้างสำหรับเครื่องมือป้องกันข้อมูลที่ดีขึ้น เมื่อการรวม AI และ chatbot กลายเป็นเรื่องธรรมดามากขึ้น ในขณะที่ Top Secret เสนอโซลูชันที่ใช้งานได้จริง ข้อเสนอแนะจากชุมชนแนะนำว่าองค์กรควรมองมันเป็นหนึ่งชั้นในกลยุทธ์การป้องกันข้อมูลแบบครอบคลุม มากกว่าโซลูชันที่สมบูรณ์

อ้างอิง: Introducing Top Secret