นักวิทยาศาสตร์ที่ UC Davis ได้พัฒนาอุปกรณ์ฝังสมองที่ล้ำสมัยซึ่งสามารถแปลสัญญาณประสาทเป็นเสียงพูดได้โดยตรงแบบเรียลไทม์ สิ่งนี้ถือเป็นก้าวกระโดดครั้งสำคัญจากระบบก่อนหน้านี้ที่สามารถแปลงความคิดเป็นข้อความบนหน้าจอได้เท่านั้น เทคโนโลยีนี้มอบความหวังใหม่ให้กับผู้ที่มีภาวะเช่น ALS ที่สูญเสียความสามารถในการพูดอย่างชัดเจน
การสร้างเสียงแบบเรียลไทม์โดยไม่จำกัดพจนานุกรม
แตกต่างจากอินเทอร์เฟซสมอง-คอมพิวเตอร์รุ่นก่อนที่อาศัยรายการคำศัพท์ที่กำหนดไว้ล่วงหน้า ระบบใหม่นี้แปลงสัญญาณสมองเป็นเสียงและหน่วยเสียงจริง ซึ่งหมายความว่าผู้ใช้สามารถพูดสิ่งที่ต้องการได้ทุกอย่าง รวมถึงคำที่แต่งขึ้น คำอุทานเช่น อืม และ หืม และแม้กระทั่งร้องเพลงท่วงทำนองสั้นๆ ระบบทำงานด้วยความล่าช้าที่ต่ำมากเพียง 10 มิลลิวินาที ทำให้การแปลงจากความคิดเป็นคำพูดเกิดขึ้นทันทีทันใด
ความก้าวหน้านี้เกิดจากการเล็งเป้าไปที่พื้นที่การผลิตคำพูดของสมองมากกว่าเพียงแค่พื้นที่ควบคุมการเคลื่อนไหว นักวิจัยได้ฝังไมโครอิเล็กโทรด 256 ตัวเข้าไปใน ventral precentral gyrus ของผู้ป่วย ซึ่งเป็นส่วนที่ควบคุมกล้ามเนื้อทางเดินเสียง จากนั้นตัวถอดรหัส AI จะดึงคุณลักษณะของคำพูดเช่นระดับเสียงและการออกเสียงจากสัญญาณประสาท แล้วป้อนเข้าไปใน vocoder ที่สร้างเสียงต้นฉบับของผู้ป่วยขึ้นมาใหม่
ข้อมูลจำเพาะทางเทคนิค
- อิเล็กโทรด: ไมโครอิเล็กโทรด 256 ตัวที่ฝังอยู่ในบริเวณ ventral precentral gyrus
- ความล่าช้า: ประมาณ 10 มิลลิวินาที (เกือบจะทันทีทันใด)
- การประมวลผลสัญญาณ: ตัวถอดรหัสประสาทเทียม AI + โวโคเดอร์สำหรับการสังเคราะห์เสียงพูด
- คำศัพท์: ไม่จำกัด (ไม่มีข้อจำกัดจากพจนานุกรม)
- คุณสมบัติ: รองรับระดับเสียง ลีลาการพูด คำอุทาน และทำนองเพลงเบื้องต้น
ปัญหาความแม่นยำจำกัดการใช้งานจริง
แม้ว่าเทคโนโลยีนี้จะแสดงให้เห็นถึงความหวัง แต่ยังคงมีความท้าทายที่สำคัญ ในการทดสอบที่มีการควบคุมซึ่งผู้ฟังเลือกจากประโยคที่คล้ายกัน 6 ประโยค ระบบสามารถทำได้อย่างสมบูรณ์แบบ 100% อย่างไรก็ตาม ในการทดสอบการถอดเสียงแบบเปิดที่สะท้อนการสนทนาจริงได้ดีกว่า อัตราข้อผิดพลาดของคำพุ่งขึ้นไปที่ 43.75% ซึ่งหมายความว่าผู้ฟังสามารถระบุคำที่พูดได้อย่างถูกต้องเพียงประมาณครึ่งหนึ่งเท่านั้น
เรายังไม่ถึงจุดที่สามารถใช้ในการสนทนาแบบเปิดได้ ผมคิดว่านี่เป็นการพิสูจน์แนวคิด
เพื่อการเปรียบเทียบ การพูดตามธรรมชาติของผู้ป่วยโดยไม่ใช้อุปกรณ์มีอัตราข้อผิดพลาด 96.43% ในการทดสอบเดียวกัน แสดงให้เห็นว่าอุปกรณ์ฝังให้การปรับปรุงที่สำคัญ อย่างไรก็ตาม ความแม่นยำในปัจจุบันยังต่ำกว่าสิ่งที่จำเป็นสำหรับการสื่อสารในชีวิตประจำวัน
การเปรียบเทียบประสิทธิภาพของระบบ
ประเภทการทดสอบ | ความแม่นยำของชิปฝังสมอง | ความแม่นยำของการพูดธรรมชาติ |
---|---|---|
การควบคุม (เลือก 6 ประโยค) | 100% | ไม่ได้ทดสอบ |
การถอดเสียงแบบเปิด | ถูกต้อง 56.25% | ถูกต้อง 3.57% |
อัตราข้อผิดพลาดของคำ | 43.75% | 96.43% |
ข้อกังวลเรื่องความเป็นส่วนตัวและการควบคุม
เทคโนโลยีนี้ทำให้เกิดคำถามสำคัญเกี่ยวกับความเป็นส่วนตัวทางจิตใจและการควบคุม การอภิปรายในชุมชนเน้นข้อกังวลเกี่ยวกับว่าอุปกรณ์อาจออกอากาศความคิดภายในที่ไม่ได้ตั้งใจจะพูดออกมาโดยไม่ตั้งใจหรือไม่ อย่างไรก็ตาม ผู้เชี่ยวชาญอธิบายว่าระบบต้องการการเปิดใช้งานโดยตั้งใจและมุ่งเน้นไปที่พื้นที่การผลิตคำพูดมากกว่าพื้นที่การประมวลผลความคิดทั่วไป
ความสามารถในการปรับตัวที่น่าทึ่งของสมองชี้ให้เห็นว่าผู้ใช้สามารถเรียนรู้ที่จะควบคุมเมื่อใดที่อุปกรณ์จะทำงาน คล้ายกับวิธีที่เราสามารถคิดเกี่ยวกับการขยับแขนโดยไม่ต้องทำจริง กระบวนการเรียนรู้นี้น่าจะเกี่ยวข้องกับการพัฒนาเส้นทางประสาทใหม่เพื่อแยกความคิดส่วนตัวออกจากคำพูดที่ตั้งใจจะพูด
การทดลองทางคลินิกที่กำลังจะมาถึง
- บริษัท: Paradromics (Austin, Texas)
- จำนวนอิเล็กโทรด: 1,600 อิเล็กโทรด (เทียบกับ 256 ในปัจจุบัน)
- สถานที่: UC Davis
- สถานะ: กำลังขออนุมัติจาก FDA
- หัวหน้านักวิจัย: David Brandman (ผู้ร่วมเขียนการศึกษาปัจจุบัน)
การปรับปรุงในอนาคตและการทดลองทางคลินิก
นักวิจัยเชื่อว่าหัวใจสำคัญของความแม่นยำที่ดีขึ้นอยู่ที่การใช้อิเล็กโทรดมากขึ้น ระบบปัจจุบันใช้อิเล็กโทรดประมาณ 250 ตัว แต่สตาร์ทอัพใหม่กำลังพัฒนาอุปกรณ์ที่มีอิเล็กโทรดมากกว่า 1,000 ตัว Paradromics บริษัทที่ตั้งอยู่ใน Texas วางแผนที่จะทดสอบระบบ 1,600 อิเล็กโทรดในการทดลองทางคลินิกที่ได้รับอนุมัติจาก FDA ที่ UC Davis ในเร็วๆ นี้
เทคโนโลยีนี้เป็นก้าวสำคัญสู่การให้ผู้ที่มีอาการเป็นอัมพาตรุนแรงมีวิธีการสื่อสารที่เป็นธรรมชาติมากขึ้น แม้ว่าจะยังไม่พร้อมสำหรับการใช้งานในชีวิตประจำวัน แต่ก็แสดงให้เห็นว่าการแปลงจากสมองสู่คำพูดโดยตรงเป็นไปได้และอาจคืนความสามารถในการแสดงออกอย่างเต็มรูปแบบของเสียงมนุษย์ให้กับผู้ที่สูญเสียมันไปได้ในที่สุด
อ้างอิง: A neural brain implant provides near instantaneous speech