แอป Whispering เผชิญคำเตือนด้านความปลอดภัยและผู้ใช้ตั้งคำถามเกี่ยวกับการอ้างว่าเป็น Local-First

ทีมชุมชน BigGo
แอป Whispering เผชิญคำเตือนด้านความปลอดภัยและผู้ใช้ตั้งคำถามเกี่ยวกับการอ้างว่าเป็น Local-First

Whispering แอปพลิเคชันแปลงเสียงเป็นข้อความแบบโอเพนซอร์สที่สัญญาว่าจะให้ความเป็นส่วนตัวแบบ local-first กำลังถูกชุมชนตรวจสอบอย่างใกล้ชิดเกี่ยวกับคำเตือนด้านความปลอดภัยและการอ้างที่ขัดแย้งกันเรื่องการจัดการข้อมูล แอปที่สร้างด้วย Rust และ JavaScript นี้วางตำแหน่งตัวเองเป็นทางเลือกที่เน้นความเป็นส่วนตัวแทนบริการแปลงเสียงเป็นข้อความบนคลาวด์

บริการทรานสคริปชันที่รองรับ

  • Cloud APIs: OpenAI, Groq, Anthropic, Google, ElevenLabs, Deepgram
  • ตัวเลือกภายในเครื่อง: การผสานรวมกับ Speaches.ai, Whisper C++ (อยู่ระหว่างการพัฒนา)
  • แพลตฟอร์ม: เดสก์ท็อป (Windows, macOS, Linux), เว็บแอป
  • เทคโนโลยีที่ใช้: แบ็กเอนด์ Rust, ฟรอนต์เอนด์ JavaScript/TypeScript, เฟรมเวิร์ก Tauri

Windows Defender ตั้งค่าสถานะไฟล์ติดตั้งเป็นไฟล์ติดเชื้อ

ผู้ใช้หลายรายรายงานว่า Windows Defender ตั้งค่าสถานะไฟล์ติดตั้งของ Whispering เป็นไฟล์ติดเชื้อ คำเตือนด้านความปลอดภัยดูเหมือนจะเกิดจากการที่แอปใช้ enigo crate ของ Rust ซึ่งช่วยให้ซอฟต์แวร์สามารถเขียนข้อความลงในตำแหน่งเคอร์เซอร์โดยตรง ฟังก์ชันนี้ที่มักเรียกว่า keyboard wedge มักจะทำให้เกิด false positive ในซอฟต์แวร์ความปลอดภัยเพราะมันเลียนแบบพฤติกรรมของ keylogger ที่เป็นอันตราย

การสแกน VirusTotal แสดงผลลัพธ์ที่หลากหลายในเวอร์ชันต่างๆ ไฟล์ปฏิบัติการเวอร์ชันล่าสุด 7.3.0 แสดงการตั้งค่าสถานะจาก Arctic Wolf (ทำเครื่องหมายว่า Unsafe) และทั้ง AVG และ Avast (จัดประเภทเป็น Potentially Unwanted Program) อย่างไรก็ตาม เวอร์ชัน MSI installer แสดงผลลัพธ์ที่สะอาดกว่าและมีข้อกังวลด้านความปลอดภัยน้อยกว่า

หมายเหตุ: keyboard wedge คือซอฟต์แวร์ที่ดักจับหรือจำลองการป้อนข้อมูลจากแป้นพิมพ์ ทำให้โปรแกรมสามารถพิมพ์ข้อความได้โดยอัตโนมัติ

ผลการสแกนความปลอดภัย ( VirusTotal )

  • เวอร์ชัน 7.3.0 EXE: ถูกตั้งค่าสถานะเป็นอันตรายโดย Arctic Wolf (Unsafe), AVG & Avast (PUP)
  • เวอร์ชัน 7.3.0 MSI: ผลการสแกนสะอาด ไม่พบการตั้งค่าสถานะใดๆ
  • เวอร์ชัน 7.2.1/7.2.2 MSI: ไม่พบการตั้งค่าสถานะใดๆ
  • เวอร์ชัน 7.2.1/7.2.2 EXE: พบการตั้งค่าสถานะ 3 รายการ ( ArcticWolf Unsafe, AVG & Avast PUP )

การอ้างเรื่องความเป็นส่วนตัวถูกชุมชนโจมตี

แม้จะมีการตลาดอย่างกว้างขวางเกี่ยวกับการทำงานแบบ local-first แต่ผู้ใช้กำลังตั้งคำถามว่า Whispering เก็บข้อมูลไว้ในอุปกรณ์จริงหรือไม่ ความสับสนเกิดจากวิดีโอสาธิตของแอปที่แสดงขั้นตอนการกำหนดค่าสำหรับบริการ API ภายนอกรวมถึง Groq, OpenAI, Anthropic, Google และ ElevenLabs

ข้อความที่นี่บอกว่าข้อมูลทั้งหมดยังคงอยู่ในอุปกรณ์และเน้นย้ำว่าคุณสามารถไว้วางใจได้มากแค่ไหน... แต่ขั้นตอนแรกคือการกำหนดค่า access token สำหรับบริการภายนอก? บริการที่แสดงนั้นทำการแปลงเสียงเป็นข้อความจริงหรือ ฟังทุกสิ่งที่ฉันพูด?

ความไม่สอดคล้องระหว่างการอ้างทางการตลาดและฟังก์ชันจริงนี้ทำให้ผู้ใช้ที่อาจสนใจไม่แน่ใจเกี่ยวกับโมเดลความเป็นส่วนตัวที่แท้จริงของแอป ในขณะที่แอปพลิเคชันรองรับการแปลงเสียงเป็นข้อความในเครื่องผ่านการรวมกับ Speaches.ai แต่เวิร์กโฟลว์หลักดูเหมือนจะพึ่งพาบริการบนคลาวด์ที่ใช้ API key ที่ผู้ใช้จัดหาเอง

การรองรับการแปลงเสียงเป็นข้อความในเครื่องยังคงพัฒนาอยู่

ทีมพัฒนากำลังทำงานอย่างแข็งขันเพื่อแก้ไขข้อจำกัดของการแปลงเสียงเป็นข้อความในเครื่อง การอัปเดตครั้งใหญ่ที่เพิ่มการรองรับ Whisper C++ กำลังอยู่ในระหว่างการดำเนินการ ซึ่งควรจะให้ฟังก์ชันออฟไลน์ที่กว้างขวางมากขึ้น การอัปเดตนี้เป็นก้าวสำคัญในการบรรลุคำสัญญาแบบ local-first ของแอป

สมาชิกชุมชนยังขอการรองรับโมเดลใหม่ๆ เช่น Parakeet ซึ่งให้ประสิทธิภาพที่เร็วกว่าโมเดล Whisper แบบดั้งเดิมอย่างมาก รายงานเบื้องต้นแสดงว่า Parakeet สามารถทำการแปลงเสียงเป็นข้อความได้ 3000 เท่าของเวลาจริงบนฮาร์ดแวร์ระดับไฮเอนด์และ 5 เท่าของเวลาจริงแม้กระทั่งบน CPU ของแล็ปท็อป ในขณะที่ยังคงความแม่นยำที่ดีกว่า Whisper-large-v3

การเปรียบเทียบประสิทธิภาพ: Parakeet กับ Whisper

  • Parakeet: เร็วกว่าเวลาจริง 3000 เท่าบน GPU A100, เร็วกว่าเวลาจริง 5 เท่าบน CPU แล็ปท็อป
  • Whisper: ประสิทธิภาพมาตรฐานพื้นฐาน
  • ความแม่นยำ: รายงานว่า Parakeet มีความแม่นยำมากกว่า whisper-large-v3
  • ความพร้อมใช้งาน: มีการร้องขอการสนับสนุน Parakeet แต่ยังไม่ได้นำมาใช้ใน Whispering

การแข่งขันในพื้นที่โอเพนซอร์ส

Whispering เผชิญการแข่งขันจากทางเลือกที่มีชื่อเสียงแล้วเช่น VoiceInk สำหรับ macOS และ MacWhisper ซึ่งทั้งคู่เสนอฟังก์ชันที่คล้ายกันด้วยแนวทางที่แตกต่างกันในการประมวลผลในเครื่อง VoiceInk ให้การควบคุม hotkey ที่สะดวกและ visual feedback ในขณะที่ MacWhisper เสนอราคาซื้อครั้งเดียวและการอัปเดตเป็นประจำ

ภูมิทัศน์ที่กว้างขึ้นรวมถึงเครื่องมือต่างๆ ที่ใช้ Whisper แม้ว่าส่วนใหญ่จะยังคงเป็น wrapper รอบโมเดล Whisper หลักมากกว่าแนวทางที่แตกต่างกันโดยพื้นฐานในการรู้จำเสียงพูด

การสนทนาของชุมชนเน้นย้ำความต้องการที่เพิ่มขึ้นสำหรับเครื่องมือแปลงเสียงเป็นข้อความแบบ local-first อย่างแท้จริงที่สามารถเทียบเท่าความสะดวกของบริการคลาวด์ในขณะที่ยังคงความเป็นส่วนตัวของผู้ใช้ ในขณะที่ Whispering ยังคงพัฒนาต่อไป การแก้ไขทั้งข้อกังวลด้านความปลอดภัยและการชี้แจงโมเดลความเป็นส่วนตัวจะเป็นสิ่งสำคัญสำหรับการได้รับความไว้วางใจจากผู้ใช้ในพื้นที่การแข่งขันนี้

อ้างอิง: Whispering