Google Docs เพิ่มฟีเจอร์แปลงข้อความเป็นเสียงพูดด้วย AI ผ่านการผสานรวม Gemini

ทีมบรรณาธิการ BigGo

Google Docs เพิ่มฟีเจอร์แปลงข้อความเป็นเสียงพูดด้วย AI ผ่านการผสานรวม Gemini

Google ได้เปิดตัวฟีเจอร์เสียงใหม่ที่ขับเคลื่อนด้วย AI สำหรับ Google Docs ที่สามารถแปลงเอกสารที่เขียนเป็นข้อความให้กลายเป็นเสียงพูดที่ฟังดูเป็นธรรมชาติ การปรับปรุงนี้ใช้ประโยชน์จากเทคโนโลยี Gemini AI เพื่อมอบประสบการณ์การแปลงข้อความเป็นเสียงพูดที่ซับซ้อนมากขึ้นเมื่อเปรียบเทียบกับเสียงที่สร้างโดยคอมพิวเตอร์แบบดั้งเดิม

ประสบการณ์เสียงที่ได้รับการปรับปรุงด้วย Gemini AI

ฟีเจอร์ใหม่นี้สร้างเวอร์ชันเสียงของเอกสาร Google Docs โดยใช้การประมวลผล AI ขั้นสูง ผู้ใช้สามารถเข้าถึงฟังก์ชันนี้ผ่านเมนู Tools ที่มีตัวเลือก Audio ใหม่ที่สร้างการบรรยายด้วยเสียงที่สมจริงของเนื้อหา ระบบจะประมวลผลเอกสารโดยอัตโนมัติและเริ่มเล่นด้วยการปรับปรุงการผันเสียงและจังหวะที่เป็นธรรมชาติ แม้ว่าเทคโนโลยีจะยังคงแสดงข้อจำกัดเป็นครั้งคราวที่เป็นลักษณะเฉพาะของการสร้างเสียงพูดด้วย AI

การควบคุมการเล่นและการปรับแต่งที่ครอบคลุม

Google ได้พัฒนาแถบเครื่องมือแบบลอยตัวที่เคลื่อนย้ายได้ซึ่งให้การควบคุมประสบการณ์เสียงอย่างครอบคลุม ผู้ใช้สามารถหยุดชั่วคราวและเล่นต่อ นำทางไปข้างหน้าหรือย้อนกลับผ่านเอกสาร และปรับความเร็วการเล่นตั้งแต่ 0.5 เท่าถึง 2 เท่าของความเร็วปกติ อินเทอร์เฟซอนุญาตให้แก้ไขเอกสารได้อย่างราบรื่นในขณะที่ยังคงการซิงโครไนซ์เสียง

คุณสมบัติของฟีเจอร์:

ช่วงความเร็วในการเล่น: 0.5x ถึง 2.0x
การรองรับภาษา: ภาษาอังกฤษเท่านั้น
ความพร้อมใช้งานของแพลตฟอร์ม: เดสก์ท็อปเท่านั้น
การควบคุมเสียง: เล่น หยุดชั่วคราว ข้ามไปข้างหน้า/ข้างหลัง ปรับความเร็ว
การปรับแต่ง: การเลือกเสียง การแทรกปุ่มเสียง

ตัวเลือกเสียงหลากหลายสำหรับบริบทที่แตกต่างกัน

ฟีเจอร์นี้เสนอโปรไฟล์เสียงที่แตกต่างกันเจ็ดแบบ แต่ละแบบได้รับการออกแบบสำหรับกรณีการใช้งานเฉพาะ เสียง Narrator เริ่มต้นให้การพูดที่นุ่มนวลและมีระดับเสียงกลาง ในขณะที่ทางเลือกอื่นๆ ได้แก่ Educator ที่มีเสียงเป็นมิตรและระดับเสียงสูง Teacher ที่เสนอการบรรยายที่ชัดเจนและระดับเสียงต่ำ และ Persuader ที่ส่งมอบการพูดที่น่าสนใจและระดับเสียงต่ำ ตัวเลือกเพิ่มเติมรวมถึงเสียง Explainer, Coach และ Motivator แต่ละแบบมีลักษณะเฉพาะที่เหมาะสมกับประเภทเอกสารและผู้ชมที่แตกต่างกัน

ตัวเลือกเสียงที่มีให้บริการ:

Narrator: เสียงนุ่มนวล ระดับเสียงกลาง (ค่าเริ่มต้น)
Educator: เสียงเป็นมิตร ระดับเสียงสูง
Teacher: เสียงชัดเจน ระดับเสียงต่ำ
Persuader: เสียงน่าสนใจ ระดับเสียงต่ำ
Explainer: เสียงมีชีวิตชีวา ระดับเสียงต่ำ
Coach: เสียงมีชีวิตชีวา ระดับเสียงสูง
Motivator: เสียงเต็มไปด้วยพลัง ระดับเสียงกลาง

ความสามารถในการแชร์เสียงแบบร่วมมือ

ผู้เขียนเอกสารสามารถแทรกปุ่มเสียงลงในเอกสาร Google Docs ของตนโดยตรง ทำให้ผู้อ่านและผู้ร่วมงานสามารถเข้าถึงฟีเจอร์แปลงข้อความเป็นเสียงพูดโดยไม่ต้องการสิทธิ์พิเศษ ปุ่มเหล่านี้สามารถปรับแต่งในแง่ของชื่อ ขนาด และสี ให้ความยืดหยุ่นสำหรับรูปแบบเอกสารที่แตกต่างกันและความต้องการทางวิชาชีพ ฟังก์ชันนี้ขยายประโยชน์ของฟีเจอร์นอกเหนือจากการใช้งานส่วนบุคคลไปสู่สถานการณ์การทำงานร่วมกันของทีม

การประยุกต์ใช้จริงสำหรับการเขียนและการแก้ไข

ฟีเจอร์เสียงนี้มีจุดประสงค์หลายอย่างสำหรับผู้สร้างเนื้อหาและบรรณาธิการ นักเขียนสามารถระบุข้อผิดพลาดในการสะกดและไวยากรณ์ได้อย่างมีประสิทธิภาพมากขึ้นโดยการฟังข้อความของตนที่อ่านออกเสียง ในขณะเดียวกันก็ประเมินการไหลและจังหวะที่เป็นธรรมชาติของร้อยแก้วของตน กระบวนการทบทวนผ่านการฟังนี้เป็นส่วนเสริมของวิธีการแก้ไขด้วยสายตาแบบดั้งเดิมและช่วยให้ผู้เขียนปรับปรุงสไตล์การเขียนของตน

ความพร้อมใช้งานและข้อจำกัดของแพลตฟอร์ม

ปัจจุบันฟีเจอร์นี้พร้อมใช้งานสำหรับผู้ใช้ Google Workspace ที่มีแผน Business Standard, Business Plus, Enterprise Standard และ Enterprise Plus เท่านั้น รวมถึงผู้สมัครสมาชิก Gemini Education และ Education Premium ผู้ใช้รายบุคคลที่มีการสมัครสมาชิก Google AI Pro หรือ AI Ultra ก็สามารถเข้าถึงได้เช่นกัน ฟังก์ชันนี้จำกัดเฉพาะเอกสารภาษาอังกฤษและแพลตฟอร์มเดสก์ท็อป โดยยังไม่มีการประกาศการสนับสนุนมือถือในขณะนี้

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌