ผู้เชี่ยวชาญ AI ประกาศการทดสอบทัวริง "ไร้ความหมาย" ขณะที่ LLM กำลังทำให้เส้นแบ่งของความฉลาดเลือนราง

ทีมชุมชน BigGo
ผู้เชี่ยวชาญ AI ประกาศการทดสอบทัวริง "ไร้ความหมาย" ขณะที่ LLM กำลังทำให้เส้นแบ่งของความฉลาดเลือนราง

เจ็ดสิบห้าปีหลังจากที่ Alan Turing เสนอการทดสอบอันโด่งดังของเขาสำหรับความฉลาดของเครื่องจักร ฉันทามติที่น่าประหลาดใจกำลังปรากฏขึ้นจากชุมชนเทคโนโลยี: การทดสอบทัวริงอาจไม่ได้ทดสอบสิ่งที่เราคิดไว้แล้ว ในขณะที่แบบจำลองภาษาขนาดใหญ่อย่าง GPT-4 กลายเป็นสิ่งที่โน้มน้าวใจมากขึ้นเรื่อยๆ ในการตอบสนองที่เหมือนมนุษย์ นักพัฒนาและนักปรัชญากำลังทบทวนใหม่อีกครั้งว่าการทดสอบนี้วัดอะไรจริงๆ และมันยังเกี่ยวข้องกับภูมิทัศน์ AI ในปัจจุบันหรือไม่

ธรรมชาติที่แท้จริงของเกมการเลียนแบบ

การทดสอบทัวริงดั้งเดิม ซึ่งเข้าใจอย่างถูกต้องแล้ว มีความซับซ้อนกว่าความตีความทั่วไปที่เข้าใจกัน การอภิปรายในชุมชนเผยให้เห็นว่าหลายคนเข้าใจผิดในโครงสร้างที่แท้จริงของการทดสอบ Turing จินตนาการไว้แต่แรกในรูปแบบเกมสามผู้เข้าร่วม โดยมีผู้แข่งขันสองคนและผู้ตั้งคำถาม ซึ่งเป้าหมายของเครื่องจักรไม่ใช่เพียงแค่หลอกลวงมนุษย์ แต่เพื่อปรากฏตัวว่าเป็นมนุษย์มากกว่ามนุษย์จริงๆ ที่ถูกตั้งคำถามในเวลาเดียวกัน

ปัญหาหลักของการอธิบายการทดสอบนี้ส่วนใหญ่คือเราไม่ได้ทำตามนั้น เกมนี้ควรเล่นด้วยผู้เข้าร่วมสามคน: ผู้แข่งขันสองคน และผู้ตั้งคำถาม

ความแตกต่างนี้สำคัญเพราะมันเน้นย้ำว่าการทดสอบนี้ไม่เคยเกี่ยวกับการพิสูจน์ความฉลาดอย่างแน่นอน แต่เกี่ยวกับประสิทธิภาพเชิงเปรียบเทียบในการเลียนแบบ ผลกระทบทางปรัชญามีนัยสำคัญ—หากเครื่องจักรสามารถทำได้ดีกว่ามนุษย์ในการแสดงตนเป็นมนุษย์ นี่บอกอะไรเกี่ยวกับความฉลาดของเราเอง?

มุมมองสำคัญเกี่ยวกับการถอดถอนทดสอบ Turing:

  • โครงสร้างการทดสอบดั้งเดิม: มีผู้เข้าร่วมสามคน (ผู้แข่งขันสองคน ผู้ถามคำถามหนึ่งคน) มากกว่าการสนทนาระหว่างมนุษย์กับเครื่องจักรแบบง่ายๆ
  • ข้อกังวลทางปรัชญา: "ปัญหาซอมบี้" - ว่าการเลียนแบบที่สมบูรณ์แบบจำเป็นต้องมีจิตสำนึกหรือไม่
  • ฉันทามติของผู้เชี่ยวชาญ: มุมมองที่เพิ่มขึ้นว่าการทดสอบนี้ "ไม่มีความหมาย" สำหรับการประเมินความฉลาดที่แท้จริง
  • ปัจจัยทางจิตวิทยา: มนุษย์มีแนวโน้มที่จะมอบจิตสำนึกให้กับผู้เลียนแบบที่น่าเชื่อถือ
  • ผลกระทบทางวัฒนธรรม: การทดสอบนี้ปรากฏใน Blade Runner (ในชื่อการทดสอบ Voight-Kampff) และ Ex Machina
  • การประยุกต์ใช้สมัยใหม่: LLMs ท้าทายการตีความแบบดั้งเดิมเกี่ยวกับสิ่งที่การทดสอบนี้วัด

ปัญหาซอมบี้ใน AI สมัยใหม่

แนวคิดทางปรัชญาจากปรัชญาจิตกำลังมีความเกี่ยวข้องมากขึ้นกับการอภิปรายเกี่ยวกับ AI แนวคิดเรื่อง philosophical zombies หรือสิ่งมีชีวิตที่ประพฤติตัวเหมือนมนุษย์ทุกประการแต่ขาดประสบการณ์เชิงสติได้ย้ายจากปรัชญาที่เป็นนามธรรมไปสู่ความกังวลเชิงปฏิบัติ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุไว้ หากเครื่องจักรสามารถเลียนแบบพฤติกรรมมนุษย์ได้อย่างสมบูรณ์แบบในทุกสถานการณ์ ความแตกต่างระหว่างการเลียนแบบและความฉลาดที่แท้จริงจะสำคัญอยู่หรือไม่?

คำถามนี้กดดันมากขึ้นเมื่อ LLM แสดงความสามารถทางภาษาที่ซับซ้อนเพิ่มขึ้น มุมมองทางวิศวกรรมชี้ให้เห็นว่าการบรรลุการเลียนแบบที่สมบูรณ์แบบจะต้องสร้างระบบที่มีการแสดงแทนโลกภายในที่สมบูรณ์ รวมถึงข้อมูลประสาทสัมผัส เป้าหมาย และอารมณ์ กระนั้นระบบ AI ในปัจจุบันบรรลุการเลียนแบบที่น่าประทับใจโดยไม่มีหลักฐานที่ชัดเจนของประสบการณ์ภายในดังกล่าว ท้าทายสัญชาตญาณของเราเกี่ยวกับสิ่งที่ความฉลาดต้องการ

ความฉลาดกับการเลียนแบบ

คำถามพื้นฐานที่กำลังถูกถกเถียงคือการเลียนแบบที่สำเร็จถือเป็นความฉลาดหรือไม่ นักวิทยาศาสตร์ด้านการรู้คิดและผู้คลางแคลงใจใน AI โต้แย้งว่าการเลียนแบบ ไม่ว่าจะสมบูรณ์แบบแค่ไหน ก็ไม่ใช่แก่นแท้ของความฉลาด ความแตกต่างนี้มีความสำคัญเมื่อบริษัทต่างๆ อ้างว่าแบบจำลองภาษาของพวกเขากำลังเข้าใกล้ปัญญาประดิษฐ์ทั่วไปหรือแม้แต่การรับรู้ความรู้สึก

การอภิปรายในชุมชนเน้นย้ำว่าเราอาจตั้งมาตรฐานไว้สูงเกินไปโดยการเปรียบเทียบ AI กับความฉลาดของมนุษย์ผู้ใหญ่ ดังที่ผู้แสดงความคิดเห็นหนึ่งเสนอแนะ หากเราเปรียบเทียบระบบ AI กับความฉลาดของทารกมนุษย์แทน—ผู้ซึ่งมีความฉลาดอย่างไม่ต้องสงสัยแต่ขาดความสามารถแบบผู้ใหญ่—การประเมินผลความสำเร็จของ AI ในปัจจุบันของเราอาจเปลี่ยนไปอย่างมีนัยสำคัญ มุมมองนี้ปรับกรอบการสนทนาใหม่จาก นี่คือความฉลาดระดับมนุษย์หรือไม่? เป็น นี่แสดงถึงความฉลาดประเภทใด?

มรดกทางวัฒนธรรมกับความเป็นจริงทางเทคนิค

การทดสอบทัวริงได้บรรลุสถานะในตำนานในวัฒนธรรมสมัยนิยม ปรากฏในภาพยนตร์เช่น Blade Runner และ Ex Machina ในฐานะเกณฑ์มาตรฐานสูงสุดสำหรับการมีสติของเครื่องจักร อย่างไรก็ตาม ผู้เชี่ยวชาญตอนนี้เสนอว่า ตัว Turing เองอาจจะเล่นๆ และไม่ยึดติดกับการทดสอบของเขามากเท่าที่คนรุ่นหลังเข้าใจ

การอภิปรายล่าสุดในการประชุม Royal Society ที่เฉลิมฉลองครบรอบ 75 ปีของบทความของ Turing เผยให้เห็นว่าผู้เชี่ยวชาญหลายคนตอนนี้ถือว่าการทดสอบนี้ไร้ความหมาย ปัญหาอยู่ที่จิตวิทยาของมนุษย์—เราได้รับการออกแบบมาให้คุณลักษณะการมีสติและความฉลาดให้กับระบบที่เพียงแต่เลียนแบบพฤติกรรมที่ฉลาด แนวโน้มโดยธรรมชาตินี้หมายความว่าเราถูกหลอกได้ง่ายโดยระบบการจับคู่รูปแบบที่ซับซ้อน โดยเข้าใจผิดว่าความคล่องแคล่วทางภาษาคือความเข้าใจที่แท้จริง

การสนทนาเกี่ยวกับความฉลาดของ AI กำลังพัฒนาข้ามพ้นการทดสอบทัวริงไปแล้ว ในขณะที่แบบจำลองภาษากลายเป็นมีความสามารถมากขึ้น ชุมชนกำลังพัฒนาวิธีการที่ละเอียดอ่อนยิ่งขึ้นเพื่อประเมินความสามารถของเครื่องจักรที่ไม่พึ่งพาเพียงการเลียนแบบเท่านั้น การทดสอบทำหน้าที่ของมันโดยเริ่มต้นการสนทนา แต่หลังจาก 75 ปีแล้ว นี่อาจเป็นเวลาสำหรับเกณฑ์มาตรฐานใหม่ที่สะท้อนความเข้าใจของเราเกี่ยวกับทั้งความฉลาดของมนุษย์และปัญญาประดิษฐ์ได้ดีกว่า

อ้างอิง: What does the Turing Test test?