FFmpeg เพิ่มการรวม Whisper แบบเนทีฟสำหรับการแปลงเสียงเป็นข้อความอัตโนมัติ

ทีมชุมชน BigGo
FFmpeg เพิ่มการรวม Whisper แบบเนทีฟสำหรับการแปลงเสียงเป็นข้อความอัตโนมัติ

FFmpeg ไลบรารีประมวลผลมัลติมีเดียที่ใช้กันอย่างแพร่หลาย ได้รวมโมเดลการรู้จำเสียงพูด Whisper ของ OpenAI เข้าไว้ในเฟรมเวิร์กโดยตรงอย่างเป็นทางการ การพัฒนานี้ช่วยขจัดความจำเป็นในการใช้เครื่องมือแปลงเสียงแยกต่างหาก และสร้างความเป็นไปได้ใหม่สำหรับการสร้างซับไตเติลอัตโนมัติและเวิร์กโฟลว์การประมวลผลเสียง

การรวมนี้ช่วยให้ผู้ใช้สามารถแปลงเสียงและสร้างซับไตเติลโดยใช้คำสั่ง FFmpeg เพียงคำสั่งเดียว ทำให้กระบวนการที่เคยต้องทำหลายขั้นตอนและต้องใช้เครื่องมือแยกต่างหากกลายเป็นเรื่องง่าย ผู้ใช้สามารถประมวลผลไฟล์เสียงและสร้างการแปลงเสียงในรูปแบบต่างๆ ได้ รวมถึงข้อความธรรมดา ไฟล์ซับไตเติล SRT และเอาต์พุต JSON

รูปแบบผลลัพธ์ที่รองรับ:

  • Text: ข้อความที่ถอดเสียงเป็นตัวอักษรแบบธรรมดาเท่านั้น
  • SRT: รูปแบบคำบรรยายมาตรฐานพร้อมการประทับเวลา
  • JSON: รูปแบบข้อมูลที่มีโครงสร้างพร้อมข้อมูลเมตา
  • Frame metadata: ฝังอยู่ในสตรีมวิดีโอเป็น "lavfi.whisper.text"

การใช้งานในโลกจริงเปลี่ยนแปลงเวิร์กโฟลว์ของผู้ใช้

สมาชิกในชุมชนได้ค้นพบการใช้งานที่สร้างสรรค์สำหรับการรวมนี้แล้ว ผู้ใช้บางคนรายงานว่าได้ตั้งระบบแปลงเสียงอัตโนมัติสำหรับเสียงจากเครื่องสแกนเนอร์ตำรวจ สร้างเว็บไซต์สดที่แสดงการแปลงเสียงแบบเรียลไทม์ของการสื่อสารฉุกเฉิน ผู้ใช้คนอื่นๆ ใช้มันในการประมวลผลเนื้อหาวิดีโอแบบยาว ทำให้เนื้อหาหลายชั่วโมงสามารถค้นหาและเข้าถึงได้ผ่านข้อความ

ประโยชน์ด้านการเข้าถึงมีความสำคัญเป็นพิเศษ ผู้ใช้ที่มีปัญหาการได้ยินสามารถสร้างซับไตเติลสำหรับเนื้อหาวิดีโอใดๆ ได้ตามต้องการ โดยไม่ต้องพึ่งพาคำบรรยายที่มีอยู่แล้วหรือบริการภายนอก สิ่งนี้แก้ไขความหงุดหงิดที่มีมานานกับเนื้อหาที่ขาดการสนับสนุนซับไตเติลที่เหมาะสม

ความท้าทายทางเทคนิคและข้อจำกัด

แม้จะสะดวก แต่ผู้ใช้ได้ระบุอุปสรรคทางเทคนิคหลายประการ การรวมนี้ต้องการพลังการประมวลผลอย่างมาก โดยไฟล์โมเดลมีขนาดตั้งแต่ 500MB ถึง 3GB ขึ้นอยู่กับความต้องการด้านคุณภาพ หากไม่มีการเร่งความเร็วด้วย GPU การแปลงเสียงแบบเรียลไทม์อาจล่าช้าอย่างมากเมื่อเทียบกับสตรีมเสียง

แนวโน้มของ Whisper ในการเกิดภาพหลอนระหว่างช่วงเงียบยังคงเป็นปัญหาที่น่าสังเกต โมเดลบางครั้งสร้างข้อความปลอมเช่น ขอบคุณที่รับชม หรือ อย่าลืมกดไลค์และติดตาม ในช่วงที่เงียบ ซึ่งเผยให้เห็นต้นกำเนิดข้อมูลการฝึกอบรมจากแพลตฟอร์มโซเชียลมีเดีย การตรวจจับกิจกรรมเสียงช่วยลดปัญหานี้ได้ แต่เพิ่มความซับซ้อนให้กับการตั้งค่า

Whisper นั้นน่าทึ่งจริงๆ - ด้วยการผลักดันที่ถูกต้อง มันเป็นสิ่งหนึ่งของ AI ที่เปลี่ยนชีวิตของฉันไปอย่างสิ้นเชิงในทางที่ดีอย่างไม่ต้องสงสัย

ขนาดโมเดล Whisper และข้อกำหนด:

  • โมเดล Tiny: ~39MB ประมวลผลเร็วที่สุด ความแม่นยำต่ำที่สุด
  • โมเดล Base: ~74MB ความเร็วและความแม่นยำสมดุล
  • โมเดล Small: ~244MB ความแม่นยำดีสำหรับการใช้งานส่วนใหญ่
  • โมเดล Medium: ~769MB ความแม่นยำสูงขึ้น ประมวลผลช้าลง
  • โมเดล Large: ~1550MB ความแม่นยำดีที่สุด ต้องการพลังการประมวลผลสูง
  • ไฟล์โมเดลมีขนาดตั้งแต่ 500MB ถึง 3GB ขึ้นอยู่กับเวอร์ชันและคุณภาพ

การสนับสนุนหลายภาษาแสดงให้เห็นความหวังและปัญหา

ระบบสนับสนุนหลายภาษาด้วยระดับความสำเร็จที่แตกต่างกัน ในขณะที่มันจัดการภาษาหลักเช่นสเปนและฝรั่งเศสได้ดี เนื้อหาที่ผสมภาษากลับมีความท้าทาย ผู้ใช้รายงานปัญหาที่ข้อความดัตช์ถูกแปลเป็นอังกฤษโดยอัตโนมัติแม้ว่าจะต้องการการแปลงเสียงเป็นภาษาดัตช์ ซึ่งบ่งชี้ว่าโมเดลบางครั้งใช้ขั้นตอนการแปลที่ไม่ต้องการ

สำหรับผู้สร้างเนื้อหาที่ทำงานกับวัสดุภาษาต่างประเทศ การรวมนี้เสนอความเป็นไปได้ใหม่สำหรับการสร้างซับไตเติล แม้ว่าผลลัพธ์จะต้องการการตรวจสอบและแก้ไขด้วยตนเองสำหรับการใช้งานระดับมืออาชีพ

พารามิเตอร์หลักของ FFmpeg Whisper :

  • model: ระบุโมเดล Whisper ที่จะใช้ (tiny, base, small, medium, large)
  • language: ภาษาเป้าหมายสำหรับการถอดเสียง (มีการตรวจจับภาษาอัตโนมัติ)
  • task: เลือกระหว่างการถอดเสียงหรือการแปลเป็นภาษาอังกฤษ
  • queue: ขนาดบัฟเฟอร์ที่ส่งผลต่อความล่าช้าเทียบกับความแม่นยำ (ค่าเริ่มต้น: 3 วินาที)
  • format: รูปแบบผลลัพธ์ (text, srt, json)
  • รองรับ Voice Activity Detection (VAD)

การรวมทำให้เวิร์กโฟลว์ที่ซับซ้อนง่ายขึ้น

การรวม FFmpeg แสดงถึงก้าวสำคัญในการทำให้การรู้จำเสียงพูดขั้นสูงเข้าถึงได้สำหรับผู้ชมที่กว้างขึ้น ก่อนหน้านี้ ผู้ใช้ต้องประสานงานเครื่องมือหลายตัว ส่งออกส่วนเสียง และจัดการไปป์ไลน์ที่ซับซ้อน ตอนนี้ คำสั่งเดียวสามารถจัดการการแยกเสียง การแปลงเสียง และการสร้างซับไตเติลพร้อมกันได้

วิธีการที่เป็นระบบนี้เป็นประโยชน์เป็นพิเศษสำหรับนักพัฒนาที่สร้างระบบประมวลผลมีเดียอัตโนมัติ เนื่องจากพวกเขาสามารถรวมความสามารถในการแปลงเสียงได้โดยไม่ต้องจัดการการติดตั้ง Whisper แยกต่างหากหรือจัดการการแปลงรูปแบบไฟล์ระหว่างเครื่องมือ

การรวมนี้เป็นอีกหนึ่งก้าวสำคัญในการทำให้การประมวลผลเสียงที่ขับเคลื่อนด้วย AI เข้าถึงได้มากขึ้น แม้ว่าผู้ใช้ควรคาดหวังที่จะลงทุนเวลาในการทำความเข้าใจตัวเลือกการกำหนดค่าต่างๆ และข้อจำกัดเพื่อให้ได้ผลลัพธ์ที่เหมาะสมที่สุดสำหรับกรณีการใช้งานเฉพาะของพวกเขา

อ้างอิง: Module: Tensorflow::Keras::Callbacks