เจ็ดสิบห้าปีหลังจากที่ Alan Turing เสนอการทดสอบอันโด่งดังของเขาสำหรับความฉลาดของเครื่องจักร ฉันทามติที่น่าประหลาดใจกำลังปรากฏขึ้นจากชุมชนเทคโนโลยี: การทดสอบทัวริงอาจไม่ได้ทดสอบสิ่งที่เราคิดไว้แล้ว ในขณะที่แบบจำลองภาษาขนาดใหญ่อย่าง GPT-4 กลายเป็นสิ่งที่โน้มน้าวใจมากขึ้นเรื่อยๆ ในการตอบสนองที่เหมือนมนุษย์ นักพัฒนาและนักปรัชญากำลังทบทวนใหม่อีกครั้งว่าการทดสอบนี้วัดอะไรจริงๆ และมันยังเกี่ยวข้องกับภูมิทัศน์ AI ในปัจจุบันหรือไม่
ธรรมชาติที่แท้จริงของเกมการเลียนแบบ
การทดสอบทัวริงดั้งเดิม ซึ่งเข้าใจอย่างถูกต้องแล้ว มีความซับซ้อนกว่าความตีความทั่วไปที่เข้าใจกัน การอภิปรายในชุมชนเผยให้เห็นว่าหลายคนเข้าใจผิดในโครงสร้างที่แท้จริงของการทดสอบ Turing จินตนาการไว้แต่แรกในรูปแบบเกมสามผู้เข้าร่วม โดยมีผู้แข่งขันสองคนและผู้ตั้งคำถาม ซึ่งเป้าหมายของเครื่องจักรไม่ใช่เพียงแค่หลอกลวงมนุษย์ แต่เพื่อปรากฏตัวว่าเป็นมนุษย์มากกว่ามนุษย์จริงๆ ที่ถูกตั้งคำถามในเวลาเดียวกัน
ปัญหาหลักของการอธิบายการทดสอบนี้ส่วนใหญ่คือเราไม่ได้ทำตามนั้น เกมนี้ควรเล่นด้วยผู้เข้าร่วมสามคน: ผู้แข่งขันสองคน และผู้ตั้งคำถาม
ความแตกต่างนี้สำคัญเพราะมันเน้นย้ำว่าการทดสอบนี้ไม่เคยเกี่ยวกับการพิสูจน์ความฉลาดอย่างแน่นอน แต่เกี่ยวกับประสิทธิภาพเชิงเปรียบเทียบในการเลียนแบบ ผลกระทบทางปรัชญามีนัยสำคัญ—หากเครื่องจักรสามารถทำได้ดีกว่ามนุษย์ในการแสดงตนเป็นมนุษย์ นี่บอกอะไรเกี่ยวกับความฉลาดของเราเอง?
มุมมองสำคัญเกี่ยวกับการถอดถอนทดสอบ Turing:
- โครงสร้างการทดสอบดั้งเดิม: มีผู้เข้าร่วมสามคน (ผู้แข่งขันสองคน ผู้ถามคำถามหนึ่งคน) มากกว่าการสนทนาระหว่างมนุษย์กับเครื่องจักรแบบง่ายๆ
- ข้อกังวลทางปรัชญา: "ปัญหาซอมบี้" - ว่าการเลียนแบบที่สมบูรณ์แบบจำเป็นต้องมีจิตสำนึกหรือไม่
- ฉันทามติของผู้เชี่ยวชาญ: มุมมองที่เพิ่มขึ้นว่าการทดสอบนี้ "ไม่มีความหมาย" สำหรับการประเมินความฉลาดที่แท้จริง
- ปัจจัยทางจิตวิทยา: มนุษย์มีแนวโน้มที่จะมอบจิตสำนึกให้กับผู้เลียนแบบที่น่าเชื่อถือ
- ผลกระทบทางวัฒนธรรม: การทดสอบนี้ปรากฏใน Blade Runner (ในชื่อการทดสอบ Voight-Kampff) และ Ex Machina
- การประยุกต์ใช้สมัยใหม่: LLMs ท้าทายการตีความแบบดั้งเดิมเกี่ยวกับสิ่งที่การทดสอบนี้วัด
ปัญหาซอมบี้ใน AI สมัยใหม่
แนวคิดทางปรัชญาจากปรัชญาจิตกำลังมีความเกี่ยวข้องมากขึ้นกับการอภิปรายเกี่ยวกับ AI แนวคิดเรื่อง philosophical zombies หรือสิ่งมีชีวิตที่ประพฤติตัวเหมือนมนุษย์ทุกประการแต่ขาดประสบการณ์เชิงสติได้ย้ายจากปรัชญาที่เป็นนามธรรมไปสู่ความกังวลเชิงปฏิบัติ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุไว้ หากเครื่องจักรสามารถเลียนแบบพฤติกรรมมนุษย์ได้อย่างสมบูรณ์แบบในทุกสถานการณ์ ความแตกต่างระหว่างการเลียนแบบและความฉลาดที่แท้จริงจะสำคัญอยู่หรือไม่?
คำถามนี้กดดันมากขึ้นเมื่อ LLM แสดงความสามารถทางภาษาที่ซับซ้อนเพิ่มขึ้น มุมมองทางวิศวกรรมชี้ให้เห็นว่าการบรรลุการเลียนแบบที่สมบูรณ์แบบจะต้องสร้างระบบที่มีการแสดงแทนโลกภายในที่สมบูรณ์ รวมถึงข้อมูลประสาทสัมผัส เป้าหมาย และอารมณ์ กระนั้นระบบ AI ในปัจจุบันบรรลุการเลียนแบบที่น่าประทับใจโดยไม่มีหลักฐานที่ชัดเจนของประสบการณ์ภายในดังกล่าว ท้าทายสัญชาตญาณของเราเกี่ยวกับสิ่งที่ความฉลาดต้องการ
ความฉลาดกับการเลียนแบบ
คำถามพื้นฐานที่กำลังถูกถกเถียงคือการเลียนแบบที่สำเร็จถือเป็นความฉลาดหรือไม่ นักวิทยาศาสตร์ด้านการรู้คิดและผู้คลางแคลงใจใน AI โต้แย้งว่าการเลียนแบบ ไม่ว่าจะสมบูรณ์แบบแค่ไหน ก็ไม่ใช่แก่นแท้ของความฉลาด ความแตกต่างนี้มีความสำคัญเมื่อบริษัทต่างๆ อ้างว่าแบบจำลองภาษาของพวกเขากำลังเข้าใกล้ปัญญาประดิษฐ์ทั่วไปหรือแม้แต่การรับรู้ความรู้สึก
การอภิปรายในชุมชนเน้นย้ำว่าเราอาจตั้งมาตรฐานไว้สูงเกินไปโดยการเปรียบเทียบ AI กับความฉลาดของมนุษย์ผู้ใหญ่ ดังที่ผู้แสดงความคิดเห็นหนึ่งเสนอแนะ หากเราเปรียบเทียบระบบ AI กับความฉลาดของทารกมนุษย์แทน—ผู้ซึ่งมีความฉลาดอย่างไม่ต้องสงสัยแต่ขาดความสามารถแบบผู้ใหญ่—การประเมินผลความสำเร็จของ AI ในปัจจุบันของเราอาจเปลี่ยนไปอย่างมีนัยสำคัญ มุมมองนี้ปรับกรอบการสนทนาใหม่จาก นี่คือความฉลาดระดับมนุษย์หรือไม่? เป็น นี่แสดงถึงความฉลาดประเภทใด?
มรดกทางวัฒนธรรมกับความเป็นจริงทางเทคนิค
การทดสอบทัวริงได้บรรลุสถานะในตำนานในวัฒนธรรมสมัยนิยม ปรากฏในภาพยนตร์เช่น Blade Runner และ Ex Machina ในฐานะเกณฑ์มาตรฐานสูงสุดสำหรับการมีสติของเครื่องจักร อย่างไรก็ตาม ผู้เชี่ยวชาญตอนนี้เสนอว่า ตัว Turing เองอาจจะเล่นๆ และไม่ยึดติดกับการทดสอบของเขามากเท่าที่คนรุ่นหลังเข้าใจ
การอภิปรายล่าสุดในการประชุม Royal Society ที่เฉลิมฉลองครบรอบ 75 ปีของบทความของ Turing เผยให้เห็นว่าผู้เชี่ยวชาญหลายคนตอนนี้ถือว่าการทดสอบนี้ไร้ความหมาย ปัญหาอยู่ที่จิตวิทยาของมนุษย์—เราได้รับการออกแบบมาให้คุณลักษณะการมีสติและความฉลาดให้กับระบบที่เพียงแต่เลียนแบบพฤติกรรมที่ฉลาด แนวโน้มโดยธรรมชาตินี้หมายความว่าเราถูกหลอกได้ง่ายโดยระบบการจับคู่รูปแบบที่ซับซ้อน โดยเข้าใจผิดว่าความคล่องแคล่วทางภาษาคือความเข้าใจที่แท้จริง
การสนทนาเกี่ยวกับความฉลาดของ AI กำลังพัฒนาข้ามพ้นการทดสอบทัวริงไปแล้ว ในขณะที่แบบจำลองภาษากลายเป็นมีความสามารถมากขึ้น ชุมชนกำลังพัฒนาวิธีการที่ละเอียดอ่อนยิ่งขึ้นเพื่อประเมินความสามารถของเครื่องจักรที่ไม่พึ่งพาเพียงการเลียนแบบเท่านั้น การทดสอบทำหน้าที่ของมันโดยเริ่มต้นการสนทนา แต่หลังจาก 75 ปีแล้ว นี่อาจเป็นเวลาสำหรับเกณฑ์มาตรฐานใหม่ที่สะท้อนความเข้าใจของเราเกี่ยวกับทั้งความฉลาดของมนุษย์และปัญญาประดิษฐ์ได้ดีกว่า
อ้างอิง: What does the Turing Test test?
