เทคนิคการลดต้นทุนที่ชาญฉลาดได้เกิดขึ้นในชุมชน AI ที่ใช้ประโยชน์จากวิธีการคิดค่าบริการ transcription เสียงของ OpenAI โดยเพียงแค่เร่งความเร็วไฟล์เสียงก่อนอัปโหลดไปยัง Whisper API ของ OpenAI ผู้ใช้สามารถลดค่าใช้จ่าย transcription ได้อย่างมีนัยสำคัญในขณะที่ยังคงความแม่นยำในระดับที่เหมาะสม
การค้นพบนี้มาจากนักพัฒนาคนหนึ่งที่ต้องการ transcribe วิดีโอบรรยาย 40 นาที แต่พบว่ากระบวนการนี้ช้าและแพง OpenAI คิดค่าบริการ transcription ตามระยะเวลาของเสียง ทำให้เกิดโอกาสในการปรับปรุงที่หลายคนไม่เคยคิดถึง
เทคนิคเร่งความเร็วง่ายๆ ที่ได้ผล
เทคนิคนี้เกี่ยวข้องกับการใช้ ffmpeg เพื่อเร่งความเร็วการเล่นเสียงก่อนส่งไฟล์ไปยังบริการ transcription ของ OpenAI การทดสอบแสดงให้เห็นว่าการเพิ่มความเร็ว 2 เท่าและ 3 เท่าทำงานได้ดีอย่างน่าทึ่ง โดย AI ยังสามารถเข้าใจและ transcribe คำพูดที่เร่งความเร็วได้อย่างแม่นยำ ไฟล์เสียง 40 นาทีที่ transcribe ด้วยความเร็วที่เพิ่มขึ้นมีค่าใช้จ่าย 0.07 ดอลลาร์สหรัฐ แทนที่จะเป็น 0.09 ดอลลาร์สหรัฐ เดิม ซึ่งแสดงถึงการลดต้นทุน 23%
วิธีการนี้ได้ผลเพราะโมเดล Whisper ของ OpenAI มีความแข็งแกร่งอย่างน่าประหลาดใจในการจัดการกับรูปแบบการพูดที่เร็วขึ้น อย่างไรก็ตาม การเพิ่มความเร็วเกิน 3 เท่าจะให้ผลลัพธ์ที่ใช้งานไม่ได้ ซึ่งบ่งชี้ว่ามีจุดที่เหมาะสมสำหรับเทคนิคการปรับปรุงนี้
การเปรียบเทียบต้นทุนสำหรับการแปลงเสียงเป็นข้อความ 40 นาที:
- ความเร็วปกติ: $0.09 USD
- เสียงที่เร่งความเร็ว: $0.07 USD
- การประหยัดต้นทุน: ลดลง 23%
![]() |
---|
ผลลัพธ์การถอดเสียงที่สะท้อนประสิทธิภาพของเทคนิคการปรับปรุงความเร็วสำหรับไฟล์เสียง |
เทคนิคการปรับปรุงเสียงขั้นสูง
สมาชิกในชุมชนได้ขยายแนวทางพื้นฐานนี้ด้วยวิธีการประมวลผลเสียงที่ซับซ้อนมากขึ้น เทคนิคหนึ่งเกี่ยวข้องกับการลบช่วงเงียบออกจากไฟล์เสียงโดยใช้ฟิลเตอร์ ffmpeg ซึ่งสามารถลดการบรรยาย 39 นาทีลงเหลือเพียง 31 นาที โดยการแทนที่ช่วงหยุดยาวด้วยช่องว่างขั้นต่ำ 20 มิลลิวินาที
นักพัฒนาคนอื่นๆ ได้ค้นพบแนวทางทางเลือกที่แตกต่างไปโดยสิ้นเชิง รวมถึงการอัปโหลดเสียงไปยัง YouTube ก่อนเพื่อใช้บริการ transcription ฟรีของพวกเขา จากนั้นจึงประมวลผลผลลัพธ์ด้วยโมเดล AI อื่นๆ บางคนยังพบวิธีการแปลงเสียงเป็นภาพและใช้โมเดลการมองเห็นสำหรับ transcription ด้วยต้นทุน token ที่ต่ำกว่า
วิธีการประหยัดค่าใช้จ่ายทางเลือก:
- ลบช่วงเงียบด้วยฟิลเตอร์ ffmpeg (ลดเวลาจาก 39 นาทีเหลือ 31 นาที)
- อัปโหลดไปยัง YouTube เพื่อใช้บริการถอดเสียงฟรี จากนั้นประมวลผลด้วยโมเดล AI อื่นๆ
- แปลงไฟล์เสียงเป็นรูปภาพและใช้โมเดลวิชันสำหรับการถอดเสียง
ผลกระทบในวงกว้างของการแฮ็กต้นทุน AI
เทคนิคการเร่งความเร็วนี้เน้นย้ำถึงแนวโน้มที่เพิ่มขึ้นของผู้ใช้ที่หาวิธีสร้างสรรค์เพื่อปรับปรุงต้นทุนบริการ AI เทคนิคที่คล้ายกันได้ถูกค้นพบกับผู้ให้บริการ AI อื่นๆ เช่น การใส่ข้อความมากขึ้นในภาพเพื่อใช้ประโยชน์จากโมเดลการกำหนดราคาแบบคงที่
อย่างไรก็ตาม แนวทางนี้ทำให้เกิดคำถามเกี่ยวกับความสมดุลระหว่างประสิทธิภาพและคุณภาพ แม้ว่าเทคนิคนี้จะประหยัดเงินและเวลา แต่มันแสดงถึงการเปลี่ยนแปลงไปสู่การบริโภคเนื้อหาให้เร็วที่สุดแทนที่จะมีส่วนร่วมกับเนื้อหาอย่างลึกซึ้ง
การอ่านเป็นความสุข การดูการบรรยายหรือการพูดและรู้สึกว่าชิ้นส่วนต่างๆ เข้าที่เข้าทางเป็นสิ่งที่ยอดเยี่ยม การให้สมองของคุณทำงานเพื่อหาความหมายของสิ่งต่างๆ เป็นสิ่งที่กำหนดเราในฐานะสปีชีส์อย่างแน่นอน
เทคนิคนี้ทำงานได้ดีที่สุดสำหรับสถานการณ์ที่ผู้ใช้ต้องการสรุปหรือภาพรวมอย่างรวดเร็วมากกว่าความเข้าใจที่ละเอียด สำหรับเนื้อหาที่ต้องการการมีส่วนร่วมอย่างลึกซึ้งหรือความเข้าใจที่ละเอียดอ่อน แนวทางแบบดั้งเดิมของการบริโภคเนื้อหาด้วยความเร็วปกติอาจยังคงเป็นที่ต้องการแม้จะมีต้นทุนที่สูงกว่า
อ้างอิง: OpenAI Charges by the Minute, So Make the Minutes Shorter