OWhisper ได้เกิดขึ้นเป็นเครื่องมือโอเพนซอร์สใหม่ที่ออกแบบมาเพื่อนำความสามารถในการแปลงเสียงเป็นข้อความในเครื่องมาสู่นักพัฒนาและผู้ใช้ที่ต้องการควบคุมบริการถอดเสียงของตนเอง สร้างโดยทีมที่อยู่เบื้องหลัง Hyprnote โครงการนี้ตอบสนองความต้องการที่เพิ่มขึ้นสำหรับทางเลือกการโฮสต์เองแทนบริการถอดเสียงบนคลาวด์ โดยกำหนดตำแหน่งตัวเองเป็น Ollama สำหรับการแปลงเสียงเป็นข้อความ
ความสามารถในการสตรีมแบบเรียลไทม์ดึงดูดความสนใจของผู้ใช้
การตอบสนองจากชุมชนมีความกระตือรือร้นเป็นพิเศษเกี่ยวกับฟีเจอร์การสตรีมแบบเรียลไทม์ของ OWhisper ผู้ใช้กำลังทดสอบแพลตฟอร์มอย่างแข็งขันในเรื่องความสามารถในการให้ผลลัพธ์ข้อความอย่างต่อเนื่องจากสตรีมเสียงสด โดยหลายคนกำลังมองหาอินเทอร์เฟซบรรทัดคำสั่งที่สามารถส่งข้อความที่ถอดเสียงแล้วไปยังโปรแกรมอื่นได้โดยตรง เครื่องมือนี้ใช้ Voice Activity Detection (VAD) เพื่อแบ่งเสียงอย่างชาญฉลาดสำหรับการประมวลผล ทำให้การถอดเสียงตอบสนองได้มากกว่าเมื่อเทียบกับหน้าต่างการประมวลผลแบบดั้งเดิม 30 วินาที
ฟังก์ชันการสตรีมทำงานผ่าน API ที่เข้ากันได้กับ Deepgram ทำให้นักพัฒนาสามารถใช้ SDK ไคลเอนต์ Deepgram ที่มีอยู่เพื่อเชื่อมต่อกับอินสแตนซ์ OWhisper ในเครื่องของตนได้ การเลือกความเข้ากันได้นี้ได้รับการตอบรับที่ดีเนื่องจากให้อินเทอร์เฟซที่คุ้นเคยสำหรับนักพัฒนาที่ทำงานกับบริการแปลงเสียงเป็นข้อความอยู่แล้ว
คุณสมบัติหลัก:
- การประมวลผลเสียงเป็นข้อความแบบเรียลไทม์และแบบแบตช์
- Voice Activity Detection (VAD) สำหรับการแบ่งส่วนเสียงอย่างชาญฉลาด
- ความสามารถในการส่งออกข้อความแบบสตรีมมิ่ง
- ทางเลือกแบบ self-hosted แทนบริการถอดเสียงบนคลาวด์
- โอเพนซอร์สพร้อมการพัฒนาโดยชุมชน
- Speaker diarization วางแผนเปิดตัวในเดือนกันยายน 2025
การรองรับข้ามแพลตฟอร์มและความหลากหลายของโมเดล
ผู้ใช้งานแรกได้ทดสอบ OWhisper บนระบบ Linux สำเร็จแล้ว โดยทีมพัฒนาได้จัดเตรียมไฟล์ไบนารีที่สร้างไว้ล่วงหน้าสำหรับหลายแพลตฟอร์ม เครื่องมือนี้รองรับโมเดลในเครื่องหลากหลาย รวมถึง Whisper หลายรูปแบบและโมเดล Moonshine ใหม่กว่า ซึ่งให้การประมวลผลที่เร็วกว่าสำหรับส่วนเสียงที่สั้นกว่า
Moonshine ประมวลผลส่วนเสียง 10 วินาทีเร็วกว่า Whisper 5 เท่าในขณะที่รักษา WER เท่าเดิม (หรือดีกว่า!)
การเลือกโมเดลรวมถึงเวอร์ชันที่ปรับให้เหมาะสมสำหรับความต้องการประสิทธิภาพที่แตกต่างกัน ตั้งแต่โมเดลขนาดเล็กสำหรับแอปพลิเคชันเบา ไปจนถึงโมเดลขนาดใหญ่กว่าเพื่อความแม่นยำที่ดีกว่า
โมเดลในเครื่องที่รองรับ:
- Whisper รุ่นต่างๆ: whisper-cpp-base-q8, whisper-cpp-small-q8, whisper-cpp-large-turbo-q8
- เวอร์ชันที่ปรับแต่งสำหรับภาษาอังกฤษ: whisper-cpp-base-q8-en, whisper-cpp-tiny-q8-en, whisper-cpp-small-q8-en
- โมเดล Moonshine: moonshine-onnx-tiny, moonshine-onnx-base (พร้อมเวอร์ชัน quantized q4 และ q8)
- โมเดลทั้งหมดมีให้ในระดับ quantization หลายระดับเพื่อตอบสนองความต้องการด้านประสิทธิภาพที่แตกต่างกัน
Speaker Diarization อยู่ในแผนงาน
หนึ่งในฟีเจอร์ที่ชุมชนร้องขอมากที่สุดคือ speaker diarization - ความสามารถในการระบุและแยกผู้พูดที่แตกต่างกันในการบันทึกเสียง แม้ว่าจะยังไม่ได้นำมาใช้ในปัจจุบัน แต่ทีมพัฒนาได้ยืนยันว่าความสามารถนี้วางแผนไว้สำหรับการเปิดตัวประมาณเดือนกันยายน 2025 ฟีเจอร์นี้จะขยายประโยชน์ใช้สอยของ OWhisper อย่างมีนัยสำคัญสำหรับการถอดเสียงการประชุมและสถานการณ์ที่มีผู้พูดหลายคน
ในปัจจุบัน แอปพลิเคชัน Hyprnote ที่เกี่ยวข้องสามารถแยกเสียงไมโครโฟนและลำโพงออกเป็นสองช่องสัญญาณ ให้การแยกแหล่งที่มาในรูปแบบพื้นฐาน แต่การระบุผู้พูดที่แท้จริงภายในช่องสัญญาณเสียงเดียวต้องการโมเดล AI เพิ่มเติมที่ยังอยู่ในระหว่างการพัฒนา
โฟกัสชุมชนโอเพนซอร์ส
โครงการนี้รักษาความมุ่งมั่นอย่างแข็งแกร่งต่อการพัฒนาโอเพนซอร์ส โดยทีมส่งเสริมการมีส่วนร่วมของชุมชนและ pull request อย่างแข็งขัน แนวทางนี้แตกต่างจากทางเลือกเชิงพาณิชย์บางตัวและได้รับการตอบรับที่ดีจากนักพัฒนาที่มองหาโซลูชันที่โปร่งใสและขับเคลื่อนโดยชุมชนสำหรับความต้องการแปลงเสียงเป็นข้อความ
OWhisper ให้บริการสองกรณีการใช้งานหลัก: การปรับใช้ในเครื่องอย่างรวดเร็วสำหรับการสร้างต้นแบบและการใช้งานส่วนบุคคล และการปรับใช้ขนาดใหญ่กว่าบนโครงสร้างพื้นฐานที่กำหนดเอง ความยืดหยุ่นนี้ทำให้เหมาะสำหรับทั้งนักพัฒนาแต่ละคนที่ทดลองกับการรู้จำเสียงและองค์กรที่ต้องการบริการถอดเสียงส่วนตัวที่โฮสต์เอง
อ้างอิง: What is OWhisper?