OWhisper เปิดตัวเป็นเซิร์ฟเวอร์แปลงเสียงเป็นข้อความในเครื่องพร้อมการสตรีมแบบเรียลไทม์และรองรับ Linux

ทีมชุมชน BigGo
OWhisper เปิดตัวเป็นเซิร์ฟเวอร์แปลงเสียงเป็นข้อความในเครื่องพร้อมการสตรีมแบบเรียลไทม์และรองรับ Linux

OWhisper ได้เกิดขึ้นเป็นเครื่องมือโอเพนซอร์สใหม่ที่ออกแบบมาเพื่อนำความสามารถในการแปลงเสียงเป็นข้อความในเครื่องมาสู่นักพัฒนาและผู้ใช้ที่ต้องการควบคุมบริการถอดเสียงของตนเอง สร้างโดยทีมที่อยู่เบื้องหลัง Hyprnote โครงการนี้ตอบสนองความต้องการที่เพิ่มขึ้นสำหรับทางเลือกการโฮสต์เองแทนบริการถอดเสียงบนคลาวด์ โดยกำหนดตำแหน่งตัวเองเป็น Ollama สำหรับการแปลงเสียงเป็นข้อความ

ความสามารถในการสตรีมแบบเรียลไทม์ดึงดูดความสนใจของผู้ใช้

การตอบสนองจากชุมชนมีความกระตือรือร้นเป็นพิเศษเกี่ยวกับฟีเจอร์การสตรีมแบบเรียลไทม์ของ OWhisper ผู้ใช้กำลังทดสอบแพลตฟอร์มอย่างแข็งขันในเรื่องความสามารถในการให้ผลลัพธ์ข้อความอย่างต่อเนื่องจากสตรีมเสียงสด โดยหลายคนกำลังมองหาอินเทอร์เฟซบรรทัดคำสั่งที่สามารถส่งข้อความที่ถอดเสียงแล้วไปยังโปรแกรมอื่นได้โดยตรง เครื่องมือนี้ใช้ Voice Activity Detection (VAD) เพื่อแบ่งเสียงอย่างชาญฉลาดสำหรับการประมวลผล ทำให้การถอดเสียงตอบสนองได้มากกว่าเมื่อเทียบกับหน้าต่างการประมวลผลแบบดั้งเดิม 30 วินาที

ฟังก์ชันการสตรีมทำงานผ่าน API ที่เข้ากันได้กับ Deepgram ทำให้นักพัฒนาสามารถใช้ SDK ไคลเอนต์ Deepgram ที่มีอยู่เพื่อเชื่อมต่อกับอินสแตนซ์ OWhisper ในเครื่องของตนได้ การเลือกความเข้ากันได้นี้ได้รับการตอบรับที่ดีเนื่องจากให้อินเทอร์เฟซที่คุ้นเคยสำหรับนักพัฒนาที่ทำงานกับบริการแปลงเสียงเป็นข้อความอยู่แล้ว

คุณสมบัติหลัก:

  • การประมวลผลเสียงเป็นข้อความแบบเรียลไทม์และแบบแบตช์
  • Voice Activity Detection (VAD) สำหรับการแบ่งส่วนเสียงอย่างชาญฉลาด
  • ความสามารถในการส่งออกข้อความแบบสตรีมมิ่ง
  • ทางเลือกแบบ self-hosted แทนบริการถอดเสียงบนคลาวด์
  • โอเพนซอร์สพร้อมการพัฒนาโดยชุมชน
  • Speaker diarization วางแผนเปิดตัวในเดือนกันยายน 2025

การรองรับข้ามแพลตฟอร์มและความหลากหลายของโมเดล

ผู้ใช้งานแรกได้ทดสอบ OWhisper บนระบบ Linux สำเร็จแล้ว โดยทีมพัฒนาได้จัดเตรียมไฟล์ไบนารีที่สร้างไว้ล่วงหน้าสำหรับหลายแพลตฟอร์ม เครื่องมือนี้รองรับโมเดลในเครื่องหลากหลาย รวมถึง Whisper หลายรูปแบบและโมเดล Moonshine ใหม่กว่า ซึ่งให้การประมวลผลที่เร็วกว่าสำหรับส่วนเสียงที่สั้นกว่า

Moonshine ประมวลผลส่วนเสียง 10 วินาทีเร็วกว่า Whisper 5 เท่าในขณะที่รักษา WER เท่าเดิม (หรือดีกว่า!)

การเลือกโมเดลรวมถึงเวอร์ชันที่ปรับให้เหมาะสมสำหรับความต้องการประสิทธิภาพที่แตกต่างกัน ตั้งแต่โมเดลขนาดเล็กสำหรับแอปพลิเคชันเบา ไปจนถึงโมเดลขนาดใหญ่กว่าเพื่อความแม่นยำที่ดีกว่า

โมเดลในเครื่องที่รองรับ:

  • Whisper รุ่นต่างๆ: whisper-cpp-base-q8, whisper-cpp-small-q8, whisper-cpp-large-turbo-q8
  • เวอร์ชันที่ปรับแต่งสำหรับภาษาอังกฤษ: whisper-cpp-base-q8-en, whisper-cpp-tiny-q8-en, whisper-cpp-small-q8-en
  • โมเดล Moonshine: moonshine-onnx-tiny, moonshine-onnx-base (พร้อมเวอร์ชัน quantized q4 และ q8)
  • โมเดลทั้งหมดมีให้ในระดับ quantization หลายระดับเพื่อตอบสนองความต้องการด้านประสิทธิภาพที่แตกต่างกัน

Speaker Diarization อยู่ในแผนงาน

หนึ่งในฟีเจอร์ที่ชุมชนร้องขอมากที่สุดคือ speaker diarization - ความสามารถในการระบุและแยกผู้พูดที่แตกต่างกันในการบันทึกเสียง แม้ว่าจะยังไม่ได้นำมาใช้ในปัจจุบัน แต่ทีมพัฒนาได้ยืนยันว่าความสามารถนี้วางแผนไว้สำหรับการเปิดตัวประมาณเดือนกันยายน 2025 ฟีเจอร์นี้จะขยายประโยชน์ใช้สอยของ OWhisper อย่างมีนัยสำคัญสำหรับการถอดเสียงการประชุมและสถานการณ์ที่มีผู้พูดหลายคน

ในปัจจุบัน แอปพลิเคชัน Hyprnote ที่เกี่ยวข้องสามารถแยกเสียงไมโครโฟนและลำโพงออกเป็นสองช่องสัญญาณ ให้การแยกแหล่งที่มาในรูปแบบพื้นฐาน แต่การระบุผู้พูดที่แท้จริงภายในช่องสัญญาณเสียงเดียวต้องการโมเดล AI เพิ่มเติมที่ยังอยู่ในระหว่างการพัฒนา

โฟกัสชุมชนโอเพนซอร์ส

โครงการนี้รักษาความมุ่งมั่นอย่างแข็งแกร่งต่อการพัฒนาโอเพนซอร์ส โดยทีมส่งเสริมการมีส่วนร่วมของชุมชนและ pull request อย่างแข็งขัน แนวทางนี้แตกต่างจากทางเลือกเชิงพาณิชย์บางตัวและได้รับการตอบรับที่ดีจากนักพัฒนาที่มองหาโซลูชันที่โปร่งใสและขับเคลื่อนโดยชุมชนสำหรับความต้องการแปลงเสียงเป็นข้อความ

OWhisper ให้บริการสองกรณีการใช้งานหลัก: การปรับใช้ในเครื่องอย่างรวดเร็วสำหรับการสร้างต้นแบบและการใช้งานส่วนบุคคล และการปรับใช้ขนาดใหญ่กว่าบนโครงสร้างพื้นฐานที่กำหนดเอง ความยืดหยุ่นนี้ทำให้เหมาะสำหรับทั้งนักพัฒนาแต่ละคนที่ทดลองกับการรู้จำเสียงและองค์กรที่ต้องการบริการถอดเสียงส่วนตัวที่โฮสต์เอง

อ้างอิง: What is OWhisper?