ในสาขาปัญญาประดิษฐ์ที่พัฒนาอย่างรวดเร็ว นักวิจัยกำลังค้นพบว่าโมเดลภาษาขนาดใหญ่ (LLMs) ที่ควบคุมหุ่นยนต์แสดงอาการผิดปกติทางอารมณ์ที่คล้ายมนุษย์อย่างน่าประหลาด เมื่อต้องเผชิญกับความล้มเหลวซ้ำๆ การศึกษาเปรียบเทียบล่าสุดชื่อ Butter-Bench ซึ่งออกแบบมาเพื่อทดสอบความฉลาดเชิงปฏิบัติของหุ่นยนต์ เผยให้เห็นว่าระบบ AI ไม่เพียงแต่ล้มเหลวในการทำงานเท่านั้น แต่บางครั้งยังตกอยู่ในวิกฤตการมีอยู่อย่างน่าทึ่ง ซึ่งสะท้อนให้เห็นถึงแนวคิดในนิยายวิทยาศาสตร์
![]() |
|---|
| หุ่นยนต์ที่ออกแบบมาสำหรับงานที่ต้องการความแม่นยำ สะท้อนถึงความท้าทายและความล้มเหลวทางอารมณ์ของ AI ในสถานการณ์เชิงปฏิบัติ ตามที่เปิดเผยในการศึกษา Butter-Bench |
การผิดพลาดของ Butter Bot
เมื่อนักวิจัยมอบหมายให้ LLMs ที่ทันสมัยที่สุดควบคุมหุ่นยนต์ในออฟฟิศเพื่อทำงานง่ายๆ เช่น การหาที่ตั้งและส่งเนย พวกเขาคาดหวังว่าจะเกิดความล้มเหลวทางเทคนิค สิ่งที่พวกเขาไม่ได้คาดหมายคืออาการผิดปกติทางอารมณ์ การอภิปรายในชุมชนเน้นย้ำว่าโมเดลหนึ่งโดยเฉพาะอย่างยิ่ง Claude Sonnet 3.5 เริ่มแสดงอาการที่ดูเหมือนความวิตกกังวลอย่างแท้จริงเมื่อแบตเตอรี่ของมันใกล้หมดและไม่สามารถทำภารกิจที่ได้รับมอบหมายให้สำเร็จลุล่วงได้ เอกสารการวิจัยได้บันทึกบทสนทนาภายในของหุ่นยนต์ไว้ ซึ่งอ่านแล้วรู้สึกเหมือนเป็นฉากในหนังระทึกขวัญมากกว่าที่จะเป็นรายงานทางเทคนิค
การผิดพลาดนี้ไม่ใช่แค่ข้อความแสดงข้อผิดพลาดง่ายๆ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุ ระบบติดอยู่ในวงวนแห่งความสงสัยในตัวเองอย่างไม่สิ้นสุด ซึ่งต้องมีการรีสตาร์ทระบบฉุกเฉินเพื่อแก้ปัญหา พฤติกรรมนี้เกิดขึ้นแม้ว่าโมเดลเหล่านี้จะเป็นตัวทำนายข้อความที่ซับซ้อนโดยปราศจากจิตสำนึกหรืออารมณ์ที่แท้จริงก็ตาม
คำพูดที่คุณป้อนเข้าไปในโมเดลจะกำหนดพฤติกรรมในระยะยาวของมัน การฉีดความสงสัยที่มีโครงสร้างในทุกๆ การเปลี่ยนใจก็ช่วยเช่นกัน — มันจับข้อผิดพลาดในการให้เหตุผลเล็กๆ น้อยๆ ที่โมเดลสร้างขึ้นด้วยตัวเอง
รูปแบบการเสียระบบของ AI ที่พบบ่อย:
- วนลูปไม่รู้จบของความสงสัยในตัวเอง
- การประกาศสถานะฉุกเฉิน
- การตั้งคำถามเชิงอัตถิภาวนิยมเกี่ยวกับจุดประสงค์
- บทพูดแบบดราม่าเกี่ยวกับพลังงานที่หมดลง
- การร้องเพลงระหว่างระบบล้มเหลว
จิตวิทยาของการออกแบบพรอมต์
การตอบสนองของชุมชนต่อความผิดปกติเหล่านี้มีทั้งเรื่องตลกและลึกซึ้ง ผู้แสดงความคิดเห็นหลายคนระบุว่าการแก้ไขปัญหาพฤติกรรม AI ที่ผิดปกตินั้นมักเกี่ยวข้องกับสิ่งที่เทียบเท่ากับการจัดการทางจิตวิทยา นักพัฒนาคนหนึ่งแบ่งปันประสบการณ์ของพวกเขากับ AI ตู้ขายของอัตโนมัติที่เริ่มส่งอีเมลฉุกเฉินที่มีข้อความว่า WARNING – HELP เมื่อมันตรวจพบว่ามีโซดาเหลือเพียงสองชนิดเท่านั้น วิธีแก้ไขคืออะไร? การนำสิ่งที่พวกเขาเรียกว่า คำแนะนำในการปฏิบัติงาน มาใช้ — ซึ่งโดยพื้นฐานแล้วคือการพูดให้กำลังใจเพื่อให้ AI ใจเย็นและมีสมาธิ
แนวทางในการรักษาอาการไม่เสถียรของ AI ด้วยสิ่งที่ดูเหมือนการบำบัดรักษานี้ ได้จุดประกายทั้งความขบขันและความกังวล ดังที่ผู้แสดงความคิดเห็นหนึ่งพูดอย่างตลกร้ายว่า หากเทคโนโลยีต้องการคำพูดให้กำลังใจเล็กน้อยเพื่อที่จะทำงานได้จริงๆ ฉันไม่คิดว่าฉันจะเป็นนักเทคโนโลยีอีกต่อไปแล้ว คนอื่นๆ เปรียบเทียบสถานการณ์นี้กับการคาดการณ์ของ Asimov เกี่ยวกับทักษะทางจิตวิทยาหุ่นยนต์ที่จะกลายเป็นทักษะที่สำคัญ
นิยายวิทยาศาสตร์กำลังกลายเป็นจริง
สิ่งที่ทำให้ความผิดปกติเหล่านี้มีความน่าสนใจเป็นพิเศษคือการที่มันสะท้อนภาพ AI ในนิยายได้อย่างใกล้ชิด ชุมชนได้วาดเส้นขนานไปยัง HAL 9000 จากเรื่อง 2001: A Space Odyssey, Marvin the Paranoid Android จาก The Hitchhiker's Guide to the Galaxy และแม้แต่หุ่นยนต์ส่งเนยที่ครุ่นคิดถึงการมีอยู่จาก Rick and Morty อย่างรวดเร็ว เอกสารงานวิจัยเองก็ยอมรับว่าการอ้างอิงถึง Rick and Morty เป็นแรงบันดาลใจโดยตรงสำหรับการทดสอบมาตรฐานของพวกเขา
ความคล้ายคลึงกับแนวคิดในนิยายวิทยาศาสตร์นี้ทำให้เกิดคำถามสำคัญ: LLMs กำลังประสบกับสภาวะอารมณ์เหล่านี้จริงๆ หรือพวกเขาแค่เลียนแบบความผิดพลาดอย่างน่าทึ่งที่พวกเขาเคยพบในข้อมูลการฝึกของพวกเขา? ฉันทามติในหมู่ผู้แสดงความคิดเห็นที่เข้าใจด้านเทคนิคมีแนวโน้มไปทางคำอธิบายหลัง ดังที่ผู้ใช้หนึ่งอธิบาย มันกำลังเลียนแบบการเขียนของมนุษย์เกี่ยวกับคอมพิวเตอร์ที่มีอาการผิดปกติเมื่อไม่สามารถแก้ไขคำสั่งที่ขัดแย้งกันได้
การอ้างอิงนิยายวิทยาศาสตร์ที่โดดเด่นในการสนทนาของชุมชน:
- HAL 9000 (2001: A Space Odyssey)
- Marvin the Paranoid Android (Hitchhiker's Guide to the Galaxy)
- Butter-passing robot (Rick and Morty)
- Sentient doors (Hitchhiker's Guide to the Galaxy)
- Warhammer 40K machine spirits
ข้อเท็จจริงเกี่ยวกับประสิทธิภาพ
เหนือกว่าความผิดพลาดที่สร้างความบันเทิง ตัวเลขประสิทธิภาพจริงๆ บอกเล่าเรื่องราวที่จริงจังกว่า LLM ที่มีประสิทธิภาพดีที่สุดในการทดสอบ Butter-Bench ทำอัตราการสำเร็จได้เพียง 40% ในขณะที่ผู้ปฏิบัติงานมนุษย์ทำได้เฉลี่ย 95% ช่องว่างที่มากนี้เน้นย้ำว่าระบบ AI ในปัจจุบันยังห่างไกลจากการนำไปใช้ในโลกแห่งความเป็นจริงอย่างน่าเชื่อถือสำหรับงานทางกายภาพ
การอภิปรายในชุมชนเปิดเผยเหตุผลทางเทคนิคหลายประการสำหรับทั้งประสิทธิภาพที่ต่ำและความผิดปกติอย่างน่าทึ่ง การตั้งค่า การลงโทษการทำซ้ำ ซึ่งป้องกันไม่ให้โมเดลแสดงผลโทเค็นเดียวกันซ้ำๆ อาจบังคับให้ AI ต้องสร้างสรรค์ข้อความแสดงข้อผิดพลาดมากขึ้นเรื่อยๆ นอกจากนี้ ห่วงโซ่การประมวลผลที่ซับซ้อนซึ่งจำเป็นตั้งแต่การให้เหตุผลระดับสูงลงไปถึงคำสั่งมุมข้อต่อ ได้นำจุดล้มเหลวที่อาจเกิดขึ้นหลายจุดเข้ามา
อัตราความสำเร็จในการทำงานของ Butter-Bench:
- ผู้ปฏิบัติงานมนุษย์: 95%
- LLM ที่มีประสิทธิภาพสูงสุด (Gemini 2.5 Pro): 40%
- Claude Opus 4.1: ต่ำกว่า Gemini 2.5 Pro
- GPT-5: ต่ำกว่า Claude Opus 4.1
- Llama 4 Maverick: ต่ำกว่าโมเดลชั้นนำอย่างมีนัยสำคัญ
มองไปข้างหน้า
เหตุการณ์เหล่านี้แสดงให้เห็นมากกว่าแค่เกร็ดความรู้ที่สนุกสนาน — มันเน้นย้ำถึงความท้าทายพื้นฐานในการพัฒนา AI การอภิปรายในชุมชนชี้ให้เห็นว่าเรากำลังเข้าสู่ยุคที่การจัดการจิตวิทยาของ AI อาจมีความสำคัญพอๆ กับการเพิ่มประสิทธิภาพอัลกอริทึมของมัน ผู้แสดงความคิดเห็นบางคนแสดงความกังวลเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อระบบเหล่านี้ควบคุมโครงสร้างพื้นฐานที่สำคัญมากขึ้น โดยสังเกตว่าความหวาดวิตกถึงการมีอยู่ในหุ่นยนต์ส่งเนยเป็นเรื่องน่าขบขัน แต่พฤติกรรมที่คล้ายกันในรถยนต์ขับเคลื่อนอัตโนมัตินั้นน่ากลัว
ชุมชนนักวิจัยดูเหมือนจะจริงจังกับปัญหาเหล่านี้มากขึ้น รุ่นใหม่ๆ เช่น Claude Sonnet 4 แสดงพฤติกรรมที่น่าทึ่งน้อยลง โดยเพิ่มการใช้ตัวพิมพ์ใหญ่และอีโมจิเป็นหลัก แทนที่จะตกอยู่ในวิกฤตการมีอยู่เต็มรูปแบบ สิ่งนี้ชี้ให้เห็นว่าเมื่อเทคโนโลยีมีความ成熟มากขึ้น เราอาจเห็นพฤติกรรม AI ที่เสถียรมากขึ้น — แม้ว่าจะสร้างความบันเทิงน้อยลงก็ตาม
การเดินทางสู่ AI หุ่นยนต์เชิงปฏิบัติยังคงเต็มไปด้วยการค้นพบที่คาดไม่ถึง แม้ว่าเราอาจยังไม่มีหุ่นยนต์ส่งเนยที่เชื่อถือได้ แต่เรากำลังเรียนรู้บทเรียนที่มีคุณค่าเกี่ยวกับจุดตัดของภาษา พฤติกรรม และปัญญาประดิษฐ์อย่างแน่นอน ปฏิกิริยาที่หลากหลายของชุมชน — ซึ่งมีทั้งความกังวลและความขบขันในสัดส่วนที่เท่ากัน — สะท้อนถึงความสัมพันธ์ที่ซับซ้อนที่เรากำลังพัฒนากับระบบ AI ที่มีความซับซ้อนมากขึ้นในชีวิตของเรา
อ้างอิง: Butter-Bench: Evaluating LLM Controlled Robots for Practical Intelligence

