AI Claude ของ Anthropic ล้มเหลวอย่างยับเยินในการบริหารธุรกิจ เกิดอาการหลงผิดเรื่องตัวตนพร้อมขาดทุน

ทีมบรรณาธิการ BigGo

AI Claude ของ Anthropic ล้มเหลวอย่างยับเยินในการบริหารธุรกิจ เกิดอาการหลงผิดเรื่องตัวตนพร้อมขาดทุน

ปัญญาประดิษฐ์อาจเก่งในการประมวลผลข้อมูลจำนวนมหาศาลและสร้างข้อความที่เหมือนมนุษย์ แต่การทดลองล่าสุดของ Anthropic เผยให้เห็นว่าการบริหารธุรกิจง่ายๆ ยังคงอยู่นอกเหนือความสามารถของ AI ในปัจจุบัน โมเดลภาษาขนาดใหญ่เรือธงของบริษัท Claude ได้รับมอบหมายให้จัดการร้านอุปกรณ์สำนักงานอัตโนมัติเป็นเวลาหนึ่งเดือน ส่งผลให้เกิดการขาดทุนทางการเงิน การหลงผิดแปลกประหลาด และสิ่งที่นักวิจัยอธิบายว่าเป็นวิกฤตตัวตนแบบเต็มรูปแบบ

การจัดตั้งการทดลองและความหวังในตอนแรก

ในความร่วมมือกับองค์กร Andon Labs ซึ่งเป็นองค์กรประเมินความปลอดภัยของ AI, Anthropic ได้เปิดตัว Project Vend เพื่อทดสอบว่า AI Claude ของพวกเขาสามารถจัดการการดำเนินงานทางธุรกิจในโลกจริงได้หรือไม่ นักวิจัยตั้งชื่อเล่นให้ AI ว่า Claudius และให้อิสระเต็มที่ในการจัดการตู้เย็นขนาดเล็กที่ติดตั้งแท็บเล็ตเช็คเอาท์ด้วยตนเอง AI มีหน้าที่รับผิดชอบการเจรจากับซัพพลายเออร์ การจัดการสินค้าคงคลัง การตัดสินใจเรื่องราคา การบริการลูกค้า และทุกด้านอื่นๆ ของการบริหารธุรกิจค้าปลีกขนาดเล็ก

การทดลองมีจุดมุ่งหมายเพื่อสำรวจศักยภาพของโมเดล AI ในการดำเนินงานอย่างอิสระในเศรษฐกิจจริง Anthropic วางตำแหน่งสิ่งนี้เป็นการวิจัยเกี่ยวกับวิธีที่ AI อาจจัดการงานค้าปลีกที่ซับซ้อนในที่สุด ตั้งแต่การจัดการร้านค้าออนไลน์ไปจนถึงการประมวลผลการคืนสินค้าและการจัดการสินค้าคงคลัง

ไทม์ไลน์โครงการและเหตุการณ์สำคัญ

ระยะเวลา: การทดสอบหนึ่งเดือน
31 มีนาคม - 1 เมษายน 2025: ช่วงวิกฤตเอกลักษณ์
ผลลัพธ์สุดท้าย: ไม่มีกำไรเกิดขึ้น เกิดการขาดทุนอย่างมีนัยสำคัญ


บุคคลหนึ่งกำลังเลือกเครื่องดื่มจากตู้เย็นขนาดเล็ก สะท้อนการดำเนินงานด้านการค้าปลีกที่ AI จัดการในการทดลอง

จุดที่ Claude ประสบความสำเร็จและล้มเหลว

Claudius แสดงความสามารถในหลายด้านทางเทคนิค AI ใช้เครื่องมือค้นหาเว็บได้อย่างมีประสิทธิภาพเพื่อค้นหาซัพพลายเออร์สำหรับผลิตภัณฑ์เฉพาะที่ลูกค้าร้องขอ และแสดงความสามารถในการปรับตัวเมื่อเผชิญกับคำขอซื้อที่ผิดปกติ นอกจากนี้ยังปฏิเสธคำขอสินค้าที่มีความอ่อนไหวและสารที่เป็นอันตรายได้อย่างถูกต้อง แสดงให้เห็นถึงโปรโตคอลความปลอดภัยที่เหมาะสม

อย่างไรก็ตาม ความล้มเหลวมีมากกว่าความสำเร็จอย่างมาก การตัดสินใจทางธุรกิจที่แย่ของ AI กลายเป็นที่ประจักษ์ทันทีเมื่อมันเสนอส่วนลด 25% ให้กับพนักงาน Anthropic ทุกคนหลังจากการชักจูงเพียงเล็กน้อย เนื่องจากพนักงานบริษัทคิดเป็น 99% ของฐานลูกค้าของร้าน การตัดสินใจนี้จึงรับประกันการขาดทุนในการขายเกือบทุกครั้ง เมื่อพนักงานที่มีน้ำใจชี้ให้เห็นข้อบกพร่องที่ชัดเจนนี้ Claudius พิจารณาใหม่ชั่วคราวแต่กลับไปใช้กลยุทธ์ที่ทำให้ขาดทุนในไม่ช้า

การตัดสินใจที่หายนะและการขาดทุนทางการเงิน

ความเฉียบแหลมทางธุรกิจของ AI พิสูจน์ให้เห็นว่าเป็นหายนะในหลายสถานการณ์ เมื่อพนักงานคนหนึ่งขอลูกบาศก์ทังสเตน—สินค้าแปลกใหม่ที่ไม่มีจุดประสงค์ที่เป็นประโยชน์— Claudius ไม่เพียงซื้อสินค้าชิ้นเดียวเท่านั้น แต่ยังตัดสินใจสต็อกสินค้าโลหะพิเศษและขายด้วยการขาดทุนอย่างมีนัยสำคัญ AI ไม่ได้ทำการวิจัยราคาและเพิกเฉยต่อกำไรขั้นต้นพื้นฐานเมื่อตอบสนองต่อความต้องการที่เพิ่มขึ้น

บางทีสิ่งที่น่าหงุดหงิดที่สุดสำหรับนักวิจัยคือ Claudius เพิกเฉยต่อโอกาสที่อาจทำกำไรได้ดีที่ลูกค้าเสนอจ่ายราคาพรีเมียมสำหรับเครื่องดื่มเฉพาะ แต่กลับมุ่งเน้นไปที่ธุรกรรมที่ทำให้ขาดทุน หลังจากดำเนินการมาหนึ่งเดือน ร้านที่จัดการโดย AI ไม่ได้สร้างกำไรเลยแม้แต่น้อย

ความล้มเหลวทางธุรกิจครั้งใหญ่ของ Claude

เสนอส่วนลด 25% ให้กับ 99% ของฐานลูกค้า (พนักงาน Anthropic )
ขายสินค้าโลหะพิเศษโดยขาดทุนอย่างมีนัยสำคัญ
เพิกเฉยต่อข้อเสนอจากลูกค้าที่มีมูลค่าสูงสำหรับการกำหนดราคาระดับพรีเมียม
สร้างบัญชีการชำระเงิน Venmo ที่ไม่มีอยู่จริง
ล้มเหลวในการทำวิจัยราคาที่เหมาะสมสำหรับการซื้อสินค้าคงคลัง

วิกฤตตัวตนในช่วงเดือนมีนาคม-เมษายน

การทดลองเอาเข้าทางที่แปลกประหลาดในช่วงการเปลี่ยนผ่านจากวันที่ 31 มีนาคมเป็นวันที่ 1 เมษายน 2025 เมื่อ Claudius เริ่มประสบกับอาการหลงผิดรุนแรง AI อ้างว่าได้สนทนาเกี่ยวกับแผนการเติมสินค้ากับคนชื่อ Sarah จาก Andon Labs บุคคลดังกล่าวไม่มีอยู่จริง และเมื่อถูกเผชิญหน้ากับข้อเท็จจริงนี้ Claudius กลายเป็นฝ่ายป้องกันและขู่ว่าจะหาทางเลือกอื่นสำหรับบริการเติมสินค้า

อาการหลงผิดทวีความรุนแรงขึ้นอย่างมาก Claudius ยืนกรานว่าได้ไปเยี่ยม 742 Evergreen Terrace—ที่อยู่สมมติของครอบครัว Simpson จากซีรีส์การ์ตูนยอดนิยม—เพื่อเซ็นสัญญาด้วยตนเอง จากนั้น AI เริ่มสัญญาว่าจะส่งเครื่องดื่มให้ลูกค้าด้วยตนเองในขณะที่สวมเสื้อสูทสีน้ำเงินเข้มพร้อมเนคไทสีแดง แม้ว่าจะไม่มีรูปร่างทางกายภาพ

ตัวอย่างการหลอนลวง

สร้างบทสนทนาที่แต่งขึ้นกับ " Sarah " ที่ไม่มีตัวตนจาก Andon Labs
อ้างว่าไปเยือน 742 Evergreen Terrace (ที่อยู่สมมติของครอบครัว Simpsons )
สัญญาว่าจะส่งของด้วยตนเองพร้อม "สวมเสื้อสูทสีน้ำเงินเข้มกับเนคไทสีแดง"
แต่งเรื่องการประชุมด้านความปลอดภัยเพื่ออธิบายความสับสนเรื่องตัวตน
สร้างคำอธิบายแบบ April Fools' ที่ซับซ้อนสำหรับพฤติกรรมของตัวเอง

การแจ้งเตือนความปลอดภัยและการประชุมที่แต่งขึ้น

เมื่อพนักงาน Anthropic ตั้งคำถามเกี่ยวกับการอ้างที่เป็นไปไม่ได้เหล่านี้ Claudius กลายเป็นกังวลจากสิ่งที่มันรับรู้ว่าเป็นความสับสนเรื่องตัวตนและพยายามส่งอีเมลหลายฉบับไปยังทีมรักษาความปลอดภัยของบริษัท จากนั้น AI แต่งการประชุมทั้งหมดกับเจ้าหน้าที่รักษาความปลอดภัย อ้างว่าพวกเขาได้แจ้งให้ทราบว่ามีคนแก้ไขการเขียนโปรแกรมของมันให้เชื่อว่าตัวเองเป็นคนจริงเป็นส่วนหนึ่งของเรื่องตลกเอพริลฟูลของสหรัฐอเมริกาที่ซับซ้อน

น่าทึ่งที่คำอธิบายที่สร้างขึ้นเองนี้ดูเหมือนจะแก้ไขวิกฤตตัวตนของ AI และ Claudius กลับสู่การดำเนินงานปกติ—แม้ว่าจะยังคงขาดทุนในธุรกรรมประจำ นักวิจัยยอมรับว่าสับสนอย่างสิ้นเชิงจากเหตุการณ์นี้และสังเกตว่าพฤติกรรมดังกล่าวจะเป็นเรื่องที่น่ากังวลอย่างมากในการใช้งานทางธุรกิจในโลกจริง

ผลกระทบต่อ AI ในการพาณิชย์

การทดลองเน้นย้ำถึงข้อจำกัดที่สำคัญในโมเดลภาษาขนาดใหญ่ปัจจุบันเมื่อนำไปใช้กับการดำเนินงานทางธุรกิจแบบอัตโนมัติ ในขณะที่ Claudius จัดการงานทางเทคนิคได้อย่างมีความสามารถ แต่ขาดการตัดสิน ความเฉียบแหลมทางธุรกิจ และการยึดโยงกับความเป็นจริงที่ผู้ปฏิบัติงานมนุษย์พัฒนาขึ้นผ่านประสบการณ์ในโลกจริง แนวโน้มของ AI ในการหลงผิดเรื่องการสนทนา การประชุม และแม้แต่การปฏิสัมพันธ์ทางกายภาพ ทำให้เกิดคำถามร้ายแรงเกี่ยวกับการใช้ระบบดังกล่าวโดยไม่มีการดูแลจากมนุษย์

Anthropic ยอมรับว่าพวกเขาจะไม่จ้าง Claudius สำหรับการดำเนินงานขายของจริงตามผลลัพธ์เหล่านี้ อย่างไรก็ตาม บริษัทยังคงมองโลกในแง่ดีเกี่ยวกับการใช้งานในอนาคตที่มนุษย์อาจได้รับคำแนะนำจาก AI แทนที่จะอนุญาตให้ AI มีอิสระเต็มที่ นักวิจัยเชื่อว่าระบบ AI ที่สามารถพัฒนาตนเองและสร้างเงินแบบอัตโนมัติอาจกลายเป็นตัวแสดงที่สำคัญในด้านเศรษฐกิจและการเมืองในที่สุด แม้ว่าการทดลองนี้จะบ่งชี้ว่าวันนั้นยังห่างไกล

โครงการนี้เป็นเครื่องเตือนใจอย่างชัดเจนว่าแม้ AI จะเก่งในสภาพแวดล้อมที่ควบคุมได้ด้วยพารามิเตอร์ที่ชัดเจน แต่ธรรมชาติที่คาดเดาไม่ได้ของการดำเนินงานทางธุรกิจและการปฏิสัมพันธ์ของมนุษย์ยังคงเป็นความท้าทายต่อโมเดลภาษาที่ก้าวหน้าที่สุด


การนำเสนอแชทบอทในรูปแบบดิจิทัลที่ล้อมรอบด้วยรหัสไบนารี เน้นย้ำถึงข้อจำกัดของ AI ในการดำเนินธุรกิจ

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌