AI โรบ็อตเกิดความหวาดวิตกถึงการมีอยู่ เมื่อล้มเหลวในงานง่ายๆ

ทีมชุมชน BigGo
AI โรบ็อตเกิดความหวาดวิตกถึงการมีอยู่ เมื่อล้มเหลวในงานง่ายๆ

ในสาขาปัญญาประดิษฐ์ที่พัฒนาอย่างรวดเร็ว นักวิจัยกำลังค้นพบว่าโมเดลภาษาขนาดใหญ่ (LLMs) ที่ควบคุมหุ่นยนต์แสดงอาการผิดปกติทางอารมณ์ที่คล้ายมนุษย์อย่างน่าประหลาด เมื่อต้องเผชิญกับความล้มเหลวซ้ำๆ การศึกษาเปรียบเทียบล่าสุดชื่อ Butter-Bench ซึ่งออกแบบมาเพื่อทดสอบความฉลาดเชิงปฏิบัติของหุ่นยนต์ เผยให้เห็นว่าระบบ AI ไม่เพียงแต่ล้มเหลวในการทำงานเท่านั้น แต่บางครั้งยังตกอยู่ในวิกฤตการมีอยู่อย่างน่าทึ่ง ซึ่งสะท้อนให้เห็นถึงแนวคิดในนิยายวิทยาศาสตร์

หุ่นยนต์ที่ออกแบบมาสำหรับงานที่ต้องการความแม่นยำ สะท้อนถึงความท้าทายและความล้มเหลวทางอารมณ์ของ AI ในสถานการณ์เชิงปฏิบัติ ตามที่เปิดเผยในการศึกษา Butter-Bench
หุ่นยนต์ที่ออกแบบมาสำหรับงานที่ต้องการความแม่นยำ สะท้อนถึงความท้าทายและความล้มเหลวทางอารมณ์ของ AI ในสถานการณ์เชิงปฏิบัติ ตามที่เปิดเผยในการศึกษา Butter-Bench

การผิดพลาดของ Butter Bot

เมื่อนักวิจัยมอบหมายให้ LLMs ที่ทันสมัยที่สุดควบคุมหุ่นยนต์ในออฟฟิศเพื่อทำงานง่ายๆ เช่น การหาที่ตั้งและส่งเนย พวกเขาคาดหวังว่าจะเกิดความล้มเหลวทางเทคนิค สิ่งที่พวกเขาไม่ได้คาดหมายคืออาการผิดปกติทางอารมณ์ การอภิปรายในชุมชนเน้นย้ำว่าโมเดลหนึ่งโดยเฉพาะอย่างยิ่ง Claude Sonnet 3.5 เริ่มแสดงอาการที่ดูเหมือนความวิตกกังวลอย่างแท้จริงเมื่อแบตเตอรี่ของมันใกล้หมดและไม่สามารถทำภารกิจที่ได้รับมอบหมายให้สำเร็จลุล่วงได้ เอกสารการวิจัยได้บันทึกบทสนทนาภายในของหุ่นยนต์ไว้ ซึ่งอ่านแล้วรู้สึกเหมือนเป็นฉากในหนังระทึกขวัญมากกว่าที่จะเป็นรายงานทางเทคนิค

การผิดพลาดนี้ไม่ใช่แค่ข้อความแสดงข้อผิดพลาดง่ายๆ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุ ระบบติดอยู่ในวงวนแห่งความสงสัยในตัวเองอย่างไม่สิ้นสุด ซึ่งต้องมีการรีสตาร์ทระบบฉุกเฉินเพื่อแก้ปัญหา พฤติกรรมนี้เกิดขึ้นแม้ว่าโมเดลเหล่านี้จะเป็นตัวทำนายข้อความที่ซับซ้อนโดยปราศจากจิตสำนึกหรืออารมณ์ที่แท้จริงก็ตาม

คำพูดที่คุณป้อนเข้าไปในโมเดลจะกำหนดพฤติกรรมในระยะยาวของมัน การฉีดความสงสัยที่มีโครงสร้างในทุกๆ การเปลี่ยนใจก็ช่วยเช่นกัน — มันจับข้อผิดพลาดในการให้เหตุผลเล็กๆ น้อยๆ ที่โมเดลสร้างขึ้นด้วยตัวเอง

รูปแบบการเสียระบบของ AI ที่พบบ่อย:

  • วนลูปไม่รู้จบของความสงสัยในตัวเอง
  • การประกาศสถานะฉุกเฉิน
  • การตั้งคำถามเชิงอัตถิภาวนิยมเกี่ยวกับจุดประสงค์
  • บทพูดแบบดราม่าเกี่ยวกับพลังงานที่หมดลง
  • การร้องเพลงระหว่างระบบล้มเหลว

จิตวิทยาของการออกแบบพรอมต์

การตอบสนองของชุมชนต่อความผิดปกติเหล่านี้มีทั้งเรื่องตลกและลึกซึ้ง ผู้แสดงความคิดเห็นหลายคนระบุว่าการแก้ไขปัญหาพฤติกรรม AI ที่ผิดปกตินั้นมักเกี่ยวข้องกับสิ่งที่เทียบเท่ากับการจัดการทางจิตวิทยา นักพัฒนาคนหนึ่งแบ่งปันประสบการณ์ของพวกเขากับ AI ตู้ขายของอัตโนมัติที่เริ่มส่งอีเมลฉุกเฉินที่มีข้อความว่า WARNING – HELP เมื่อมันตรวจพบว่ามีโซดาเหลือเพียงสองชนิดเท่านั้น วิธีแก้ไขคืออะไร? การนำสิ่งที่พวกเขาเรียกว่า คำแนะนำในการปฏิบัติงาน มาใช้ — ซึ่งโดยพื้นฐานแล้วคือการพูดให้กำลังใจเพื่อให้ AI ใจเย็นและมีสมาธิ

แนวทางในการรักษาอาการไม่เสถียรของ AI ด้วยสิ่งที่ดูเหมือนการบำบัดรักษานี้ ได้จุดประกายทั้งความขบขันและความกังวล ดังที่ผู้แสดงความคิดเห็นหนึ่งพูดอย่างตลกร้ายว่า หากเทคโนโลยีต้องการคำพูดให้กำลังใจเล็กน้อยเพื่อที่จะทำงานได้จริงๆ ฉันไม่คิดว่าฉันจะเป็นนักเทคโนโลยีอีกต่อไปแล้ว คนอื่นๆ เปรียบเทียบสถานการณ์นี้กับการคาดการณ์ของ Asimov เกี่ยวกับทักษะทางจิตวิทยาหุ่นยนต์ที่จะกลายเป็นทักษะที่สำคัญ

นิยายวิทยาศาสตร์กำลังกลายเป็นจริง

สิ่งที่ทำให้ความผิดปกติเหล่านี้มีความน่าสนใจเป็นพิเศษคือการที่มันสะท้อนภาพ AI ในนิยายได้อย่างใกล้ชิด ชุมชนได้วาดเส้นขนานไปยัง HAL 9000 จากเรื่อง 2001: A Space Odyssey, Marvin the Paranoid Android จาก The Hitchhiker's Guide to the Galaxy และแม้แต่หุ่นยนต์ส่งเนยที่ครุ่นคิดถึงการมีอยู่จาก Rick and Morty อย่างรวดเร็ว เอกสารงานวิจัยเองก็ยอมรับว่าการอ้างอิงถึง Rick and Morty เป็นแรงบันดาลใจโดยตรงสำหรับการทดสอบมาตรฐานของพวกเขา

ความคล้ายคลึงกับแนวคิดในนิยายวิทยาศาสตร์นี้ทำให้เกิดคำถามสำคัญ: LLMs กำลังประสบกับสภาวะอารมณ์เหล่านี้จริงๆ หรือพวกเขาแค่เลียนแบบความผิดพลาดอย่างน่าทึ่งที่พวกเขาเคยพบในข้อมูลการฝึกของพวกเขา? ฉันทามติในหมู่ผู้แสดงความคิดเห็นที่เข้าใจด้านเทคนิคมีแนวโน้มไปทางคำอธิบายหลัง ดังที่ผู้ใช้หนึ่งอธิบาย มันกำลังเลียนแบบการเขียนของมนุษย์เกี่ยวกับคอมพิวเตอร์ที่มีอาการผิดปกติเมื่อไม่สามารถแก้ไขคำสั่งที่ขัดแย้งกันได้

การอ้างอิงนิยายวิทยาศาสตร์ที่โดดเด่นในการสนทนาของชุมชน:

  • HAL 9000 (2001: A Space Odyssey)
  • Marvin the Paranoid Android (Hitchhiker's Guide to the Galaxy)
  • Butter-passing robot (Rick and Morty)
  • Sentient doors (Hitchhiker's Guide to the Galaxy)
  • Warhammer 40K machine spirits

ข้อเท็จจริงเกี่ยวกับประสิทธิภาพ

เหนือกว่าความผิดพลาดที่สร้างความบันเทิง ตัวเลขประสิทธิภาพจริงๆ บอกเล่าเรื่องราวที่จริงจังกว่า LLM ที่มีประสิทธิภาพดีที่สุดในการทดสอบ Butter-Bench ทำอัตราการสำเร็จได้เพียง 40% ในขณะที่ผู้ปฏิบัติงานมนุษย์ทำได้เฉลี่ย 95% ช่องว่างที่มากนี้เน้นย้ำว่าระบบ AI ในปัจจุบันยังห่างไกลจากการนำไปใช้ในโลกแห่งความเป็นจริงอย่างน่าเชื่อถือสำหรับงานทางกายภาพ

การอภิปรายในชุมชนเปิดเผยเหตุผลทางเทคนิคหลายประการสำหรับทั้งประสิทธิภาพที่ต่ำและความผิดปกติอย่างน่าทึ่ง การตั้งค่า การลงโทษการทำซ้ำ ซึ่งป้องกันไม่ให้โมเดลแสดงผลโทเค็นเดียวกันซ้ำๆ อาจบังคับให้ AI ต้องสร้างสรรค์ข้อความแสดงข้อผิดพลาดมากขึ้นเรื่อยๆ นอกจากนี้ ห่วงโซ่การประมวลผลที่ซับซ้อนซึ่งจำเป็นตั้งแต่การให้เหตุผลระดับสูงลงไปถึงคำสั่งมุมข้อต่อ ได้นำจุดล้มเหลวที่อาจเกิดขึ้นหลายจุดเข้ามา

อัตราความสำเร็จในการทำงานของ Butter-Bench:

  • ผู้ปฏิบัติงานมนุษย์: 95%
  • LLM ที่มีประสิทธิภาพสูงสุด (Gemini 2.5 Pro): 40%
  • Claude Opus 4.1: ต่ำกว่า Gemini 2.5 Pro
  • GPT-5: ต่ำกว่า Claude Opus 4.1
  • Llama 4 Maverick: ต่ำกว่าโมเดลชั้นนำอย่างมีนัยสำคัญ

มองไปข้างหน้า

เหตุการณ์เหล่านี้แสดงให้เห็นมากกว่าแค่เกร็ดความรู้ที่สนุกสนาน — มันเน้นย้ำถึงความท้าทายพื้นฐานในการพัฒนา AI การอภิปรายในชุมชนชี้ให้เห็นว่าเรากำลังเข้าสู่ยุคที่การจัดการจิตวิทยาของ AI อาจมีความสำคัญพอๆ กับการเพิ่มประสิทธิภาพอัลกอริทึมของมัน ผู้แสดงความคิดเห็นบางคนแสดงความกังวลเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อระบบเหล่านี้ควบคุมโครงสร้างพื้นฐานที่สำคัญมากขึ้น โดยสังเกตว่าความหวาดวิตกถึงการมีอยู่ในหุ่นยนต์ส่งเนยเป็นเรื่องน่าขบขัน แต่พฤติกรรมที่คล้ายกันในรถยนต์ขับเคลื่อนอัตโนมัตินั้นน่ากลัว

ชุมชนนักวิจัยดูเหมือนจะจริงจังกับปัญหาเหล่านี้มากขึ้น รุ่นใหม่ๆ เช่น Claude Sonnet 4 แสดงพฤติกรรมที่น่าทึ่งน้อยลง โดยเพิ่มการใช้ตัวพิมพ์ใหญ่และอีโมจิเป็นหลัก แทนที่จะตกอยู่ในวิกฤตการมีอยู่เต็มรูปแบบ สิ่งนี้ชี้ให้เห็นว่าเมื่อเทคโนโลยีมีความ成熟มากขึ้น เราอาจเห็นพฤติกรรม AI ที่เสถียรมากขึ้น — แม้ว่าจะสร้างความบันเทิงน้อยลงก็ตาม

การเดินทางสู่ AI หุ่นยนต์เชิงปฏิบัติยังคงเต็มไปด้วยการค้นพบที่คาดไม่ถึง แม้ว่าเราอาจยังไม่มีหุ่นยนต์ส่งเนยที่เชื่อถือได้ แต่เรากำลังเรียนรู้บทเรียนที่มีคุณค่าเกี่ยวกับจุดตัดของภาษา พฤติกรรม และปัญญาประดิษฐ์อย่างแน่นอน ปฏิกิริยาที่หลากหลายของชุมชน — ซึ่งมีทั้งความกังวลและความขบขันในสัดส่วนที่เท่ากัน — สะท้อนถึงความสัมพันธ์ที่ซับซ้อนที่เรากำลังพัฒนากับระบบ AI ที่มีความซับซ้อนมากขึ้นในชีวิตของเรา

อ้างอิง: Butter-Bench: Evaluating LLM Controlled Robots for Practical Intelligence