FFmpeg ไลบรารีประมวลผลมัลติมีเดียที่ใช้กันอย่างแพร่หลาย ได้รวมโมเดลการรู้จำเสียงพูด Whisper ของ OpenAI เข้าไว้ในเฟรมเวิร์กโดยตรงอย่างเป็นทางการ การพัฒนานี้ช่วยขจัดความจำเป็นในการใช้เครื่องมือแปลงเสียงแยกต่างหาก และสร้างความเป็นไปได้ใหม่สำหรับการสร้างซับไตเติลอัตโนมัติและเวิร์กโฟลว์การประมวลผลเสียง
การรวมนี้ช่วยให้ผู้ใช้สามารถแปลงเสียงและสร้างซับไตเติลโดยใช้คำสั่ง FFmpeg เพียงคำสั่งเดียว ทำให้กระบวนการที่เคยต้องทำหลายขั้นตอนและต้องใช้เครื่องมือแยกต่างหากกลายเป็นเรื่องง่าย ผู้ใช้สามารถประมวลผลไฟล์เสียงและสร้างการแปลงเสียงในรูปแบบต่างๆ ได้ รวมถึงข้อความธรรมดา ไฟล์ซับไตเติล SRT และเอาต์พุต JSON
รูปแบบผลลัพธ์ที่รองรับ:
- Text: ข้อความที่ถอดเสียงเป็นตัวอักษรแบบธรรมดาเท่านั้น
- SRT: รูปแบบคำบรรยายมาตรฐานพร้อมการประทับเวลา
- JSON: รูปแบบข้อมูลที่มีโครงสร้างพร้อมข้อมูลเมตา
- Frame metadata: ฝังอยู่ในสตรีมวิดีโอเป็น "lavfi.whisper.text"
การใช้งานในโลกจริงเปลี่ยนแปลงเวิร์กโฟลว์ของผู้ใช้
สมาชิกในชุมชนได้ค้นพบการใช้งานที่สร้างสรรค์สำหรับการรวมนี้แล้ว ผู้ใช้บางคนรายงานว่าได้ตั้งระบบแปลงเสียงอัตโนมัติสำหรับเสียงจากเครื่องสแกนเนอร์ตำรวจ สร้างเว็บไซต์สดที่แสดงการแปลงเสียงแบบเรียลไทม์ของการสื่อสารฉุกเฉิน ผู้ใช้คนอื่นๆ ใช้มันในการประมวลผลเนื้อหาวิดีโอแบบยาว ทำให้เนื้อหาหลายชั่วโมงสามารถค้นหาและเข้าถึงได้ผ่านข้อความ
ประโยชน์ด้านการเข้าถึงมีความสำคัญเป็นพิเศษ ผู้ใช้ที่มีปัญหาการได้ยินสามารถสร้างซับไตเติลสำหรับเนื้อหาวิดีโอใดๆ ได้ตามต้องการ โดยไม่ต้องพึ่งพาคำบรรยายที่มีอยู่แล้วหรือบริการภายนอก สิ่งนี้แก้ไขความหงุดหงิดที่มีมานานกับเนื้อหาที่ขาดการสนับสนุนซับไตเติลที่เหมาะสม
ความท้าทายทางเทคนิคและข้อจำกัด
แม้จะสะดวก แต่ผู้ใช้ได้ระบุอุปสรรคทางเทคนิคหลายประการ การรวมนี้ต้องการพลังการประมวลผลอย่างมาก โดยไฟล์โมเดลมีขนาดตั้งแต่ 500MB ถึง 3GB ขึ้นอยู่กับความต้องการด้านคุณภาพ หากไม่มีการเร่งความเร็วด้วย GPU การแปลงเสียงแบบเรียลไทม์อาจล่าช้าอย่างมากเมื่อเทียบกับสตรีมเสียง
แนวโน้มของ Whisper ในการเกิดภาพหลอนระหว่างช่วงเงียบยังคงเป็นปัญหาที่น่าสังเกต โมเดลบางครั้งสร้างข้อความปลอมเช่น ขอบคุณที่รับชม หรือ อย่าลืมกดไลค์และติดตาม ในช่วงที่เงียบ ซึ่งเผยให้เห็นต้นกำเนิดข้อมูลการฝึกอบรมจากแพลตฟอร์มโซเชียลมีเดีย การตรวจจับกิจกรรมเสียงช่วยลดปัญหานี้ได้ แต่เพิ่มความซับซ้อนให้กับการตั้งค่า
Whisper นั้นน่าทึ่งจริงๆ - ด้วยการผลักดันที่ถูกต้อง มันเป็นสิ่งหนึ่งของ AI ที่เปลี่ยนชีวิตของฉันไปอย่างสิ้นเชิงในทางที่ดีอย่างไม่ต้องสงสัย
ขนาดโมเดล Whisper และข้อกำหนด:
- โมเดล Tiny: ~39MB ประมวลผลเร็วที่สุด ความแม่นยำต่ำที่สุด
- โมเดล Base: ~74MB ความเร็วและความแม่นยำสมดุล
- โมเดล Small: ~244MB ความแม่นยำดีสำหรับการใช้งานส่วนใหญ่
- โมเดล Medium: ~769MB ความแม่นยำสูงขึ้น ประมวลผลช้าลง
- โมเดล Large: ~1550MB ความแม่นยำดีที่สุด ต้องการพลังการประมวลผลสูง
- ไฟล์โมเดลมีขนาดตั้งแต่ 500MB ถึง 3GB ขึ้นอยู่กับเวอร์ชันและคุณภาพ
การสนับสนุนหลายภาษาแสดงให้เห็นความหวังและปัญหา
ระบบสนับสนุนหลายภาษาด้วยระดับความสำเร็จที่แตกต่างกัน ในขณะที่มันจัดการภาษาหลักเช่นสเปนและฝรั่งเศสได้ดี เนื้อหาที่ผสมภาษากลับมีความท้าทาย ผู้ใช้รายงานปัญหาที่ข้อความดัตช์ถูกแปลเป็นอังกฤษโดยอัตโนมัติแม้ว่าจะต้องการการแปลงเสียงเป็นภาษาดัตช์ ซึ่งบ่งชี้ว่าโมเดลบางครั้งใช้ขั้นตอนการแปลที่ไม่ต้องการ
สำหรับผู้สร้างเนื้อหาที่ทำงานกับวัสดุภาษาต่างประเทศ การรวมนี้เสนอความเป็นไปได้ใหม่สำหรับการสร้างซับไตเติล แม้ว่าผลลัพธ์จะต้องการการตรวจสอบและแก้ไขด้วยตนเองสำหรับการใช้งานระดับมืออาชีพ
พารามิเตอร์หลักของ FFmpeg Whisper :
model
: ระบุโมเดล Whisper ที่จะใช้ (tiny, base, small, medium, large)language
: ภาษาเป้าหมายสำหรับการถอดเสียง (มีการตรวจจับภาษาอัตโนมัติ)task
: เลือกระหว่างการถอดเสียงหรือการแปลเป็นภาษาอังกฤษqueue
: ขนาดบัฟเฟอร์ที่ส่งผลต่อความล่าช้าเทียบกับความแม่นยำ (ค่าเริ่มต้น: 3 วินาที)format
: รูปแบบผลลัพธ์ (text, srt, json)- รองรับ Voice Activity Detection (VAD)
การรวมทำให้เวิร์กโฟลว์ที่ซับซ้อนง่ายขึ้น
การรวม FFmpeg แสดงถึงก้าวสำคัญในการทำให้การรู้จำเสียงพูดขั้นสูงเข้าถึงได้สำหรับผู้ชมที่กว้างขึ้น ก่อนหน้านี้ ผู้ใช้ต้องประสานงานเครื่องมือหลายตัว ส่งออกส่วนเสียง และจัดการไปป์ไลน์ที่ซับซ้อน ตอนนี้ คำสั่งเดียวสามารถจัดการการแยกเสียง การแปลงเสียง และการสร้างซับไตเติลพร้อมกันได้
วิธีการที่เป็นระบบนี้เป็นประโยชน์เป็นพิเศษสำหรับนักพัฒนาที่สร้างระบบประมวลผลมีเดียอัตโนมัติ เนื่องจากพวกเขาสามารถรวมความสามารถในการแปลงเสียงได้โดยไม่ต้องจัดการการติดตั้ง Whisper แยกต่างหากหรือจัดการการแปลงรูปแบบไฟล์ระหว่างเครื่องมือ
การรวมนี้เป็นอีกหนึ่งก้าวสำคัญในการทำให้การประมวลผลเสียงที่ขับเคลื่อนด้วย AI เข้าถึงได้มากขึ้น แม้ว่าผู้ใช้ควรคาดหวังที่จะลงทุนเวลาในการทำความเข้าใจตัวเลือกการกำหนดค่าต่างๆ และข้อจำกัดเพื่อให้ได้ผลลัพธ์ที่เหมาะสมที่สุดสำหรับกรณีการใช้งานเฉพาะของพวกเขา
อ้างอิง: Module: Tensorflow::Keras::Callbacks