LLM ล้มเหลวในงานเปรียบเทียบรายการง่ายๆ แม้จะมีความสามารถขั้นสูง

ทีมชุมชน BigGo
LLM ล้มเหลวในงานเปรียบเทียบรายการง่ายๆ แม้จะมีความสามารถขั้นสูง

การทดสอบล่าสุดของ LLM เชิงพาณิชย์สามตัวหลักเผยให้เห็นจุดอ่อนที่น่าประหลาดใจในการทำงานที่ควรจะเป็นเรื่องง่าย เมื่อถูกขอให้ระบุว่า top-level domain (TLD) ตัวไหนบ้างที่มีชื่อเหมือนกับ HTML5 element ที่ถูกต้อง ChatGPT , Google Gemini และ Claude ต่างก็ให้ผลลัพธ์ที่ไม่สมบูรณ์หรือไม่ถูกต้อง ซึ่งเน้นย้ำถึงช่องว่างพื้นฐานระหว่างคำสัญญาทางการตลาดของ AI กับประสิทธิภาพในโลกจริง

งานง่ายๆ ที่ทำให้ AI งง

ความท้าทายดูเหมือนจะตรงไปตรงมา: เปรียบเทียบสองรายการและหาสิ่งที่ตรงกันระหว่างชื่อ TLD และ HTML5 element งานประเภทนี้ต้องการการเข้าถึงข้อมูลปัจจุบัน การอ้างอิงข้อมูลไขว้ และการให้ผลลัพธ์ที่สมบูรณ์ อย่างไรก็ตาม ระบบ AI ทั้งสามตัวต่างก็ดิ้นรนอย่างมาก

ChatGPT ให้ผลลัพธ์ที่ตรงกันหกรายการ แต่ใส่ .code เป็น TLD อย่างไม่ถูกต้อง ในขณะที่มีเพียง .codes เท่านั้นที่มีอยู่จริง Google Gemini เข้าใจงานผิดโดยสิ้นเชิง โดยแสดงรายการ HTML element โดยไม่มีการเปรียบเทียบ TLD เลย Claude ทำได้ดีที่สุดด้วยเจ็ดรายการที่ถูกต้อง แต่ยังคงพลาดการรวมกันที่ถูกต้องหลายรายการ และพยายามอธิบายเกินไปด้วยการจับคู่เพิ่มเติมที่น่าสงสัย

การเปรียบเทียบประสิทธิภาพของ LLM ในงาน TLD-HTML5 Element Matching:

ระบบ AI จำนวนการจับคู่ที่ถูกต้อง ข้อผิดพลาดสำคัญ คะแนนประสิทธิภาพ
ChatGPT 6 การจับคู่ รวม ".code" TLD ที่ไม่มีอยู่จริง แย่
Google Gemini 0 การจับคู่ เข้าใจงานผิดสิ้นเชิง ล้มเหลว
Claude 7 การจับคู่ พลาดการจับคู่ที่ถูกต้องหลายรายการ ดีที่สุดในสามระบบ
ChatGPT (Advanced) 8+ การจับคู่ พลาด ".search" element ดีเมื่อใช้ prompting ที่เหมาะสม

ชุมชนเผยปัญหาที่แท้จริง

การตอบสนองของชุมชนเทคโนโลยีเน้นย้ำถึงข้อมูลเชิงลึกที่สำคัญเกี่ยวกับวิธีการทำงานจริงของระบบเหล่านี้ แตกต่างจากการมีการเข้าถึงรายการที่ครอบคลุมและทันสมัย LLM สร้างการตอบสนองโดยอิงจากรูปแบบที่เรียนรู้ระหว่างการฝึกอบรม พวกมันไม่ได้เก็บฐานข้อมูลปัจจุบันของ TLD หรือ HTML element ที่สามารถสอบถามได้อย่างน่าเชื่อถือ

สมาชิกชุมชนหลายคนแสดงให้เห็นว่าผลลัพธ์ที่ดีกว่าสามารถทำได้โดยการขอให้ AI เขียนโค้ดที่ดาวน์โหลดและเปรียบเทียบรายการจริง แทนที่จะพึ่งพาความรู้ภายในของระบบ วิธีการนี้ถือว่า LLM เป็นผู้ช่วยการเขียนโปรแกรมมากกว่าเป็นผู้พยากรณ์ข้อมูล

LLM บวกกับเครื่องมือ/โค้ดนั้นยอดเยี่ยม LLM เพียงลำพังเป็นเหมือนศาสตราจารย์ที่มีปัญหาการเสพเฮโรอีนเป็นช่วงๆ

การถกเถียงเรื่อง Prompting

การอภิปรายที่สำคัญเกิดขึ้นเกี่ยวกับว่าผลลัพธ์ที่แย่เกิดจากเทคนิค prompting ที่ไม่เพียงพอหรือไม่ บางคนโต้แย้งว่าการใช้โมเดลที่ซับซ้อนมากขึ้นพร้อมความสามารถในการค้นหาและการใช้เหตุผลจะแก้ปัญหาได้ คนอื่นๆ โต้กลับว่าหากการตั้งค่าเริ่มต้นให้ผลลัพธ์ที่ไม่น่าเชื่อถือ เทคโนโลยีก็ยังไม่พร้อมสำหรับการใช้งานหลัก

การทดสอบด้วย prompting ที่ซับซ้อนมากขึ้นให้ผลลัพธ์ที่ดีขึ้นในบางกรณี แต่สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสามารถในการใช้งาน ผู้ใช้ส่วนใหญ่เพียงแค่เปิดเครื่องมือเหล่านี้และถามคำถามโดยไม่ปรับการตั้งค่าหรือสร้าง prompt ที่ซับซ้อน ความคาดหวังที่ว่าผู้ใช้ต้องกลายเป็นผู้เชี่ยวชาญ prompt engineering เพื่อให้ได้คำตอบที่เชื่อถือได้นั้นขัดแย้งกับข้อความทางการตลาดของผู้ช่วย AI วิเศษ

ผลกระทบที่กว้างขึ้นต่อความน่าเชื่อถือของ AI

ตัวอย่างนี้แสดงให้เห็นรูปแบบที่กว้างขึ้นที่ LLM เก่งในงานที่ต้องการการตอบสนองที่ฟังดูน่าเชื่อ แต่ดิ้นรนกับความแม่นยำและความสมบูรณ์ ระบบเหล่านี้ถูกออกแบบมาเพื่อสร้างข้อความที่ฟังดูมีอำนาจ แม้ว่าข้อมูลพื้นฐานจะไม่สมบูรณ์หรือไม่ถูกต้อง

การอภิปรายของชุมชนเผยให้เห็นว่าผู้เชี่ยวชาญหลายคนใช้เครื่องมือเหล่านี้ได้สำเร็จโดยการเข้าใจข้อจำกัดและออกแบบขั้นตอนการทำงานตามนั้น แทนที่จะคาดหวังคำตอบโดยตรงต่อคำถามเชิงข้อเท็จจริง ผู้ใช้ที่มีประสบการณ์ใช้ประโยชน์จาก LLM สำหรับการสร้างโค้ด การแปลงข้อความ และงานสร้างสรรค์ที่ความแม่นยำที่สมบูรณ์แบบไม่ใช่สิ่งสำคัญ

ข้อจำกัดทางเทคนิคที่สำคัญที่ระบุได้:

  • ไม่มีการเข้าถึงข้อมูลแบบเรียลไทม์: LLM ไม่ได้เก็บรักษาฐานข้อมูลปัจจุบันของ TLD หรือองค์ประกอบ HTML
  • การสร้างแบบอิงรูปแบบ: การตอบสนองอิงจากรูปแบบข้อมูลการฝึก ไม่ใช่การค้นหาข้อเท็จจริง
  • ปัญหาความสมบูรณ์: มีปัญหาในการสร้างรายการแบบครบถ้วนและงานเปรียบเทียบ
  • ปัญหาการแบ่งโทเค็น: ความยากลำบากในการวิเคราะห์ระดับตัวอักษร (เช่น การนับตัวอักษรในคำ)
  • การปนเปื้อนบริบท: ข้อผิดพลาดในช่วงต้นของการสนทนาส่งผลต่อการตอบสนองที่ตามมา
  • ข้อจำกัดของโมเดลพื้นฐาน: โมเดลพื้นฐานมักไม่เพียงพอสำหรับงานที่ต้องการความแม่นยำ

บทสรุป

แม้ว่า LLM จะพิสูจน์แล้วว่ามีคุณค่าสำหรับการใช้งานหลายอย่าง การทดสอบนี้แสดงให้เห็นความสำคัญของการเข้าใจข้อจำกัดพื้นฐานของพวกมัน ช่องว่างระหว่างคำสัญญาทางการตลาดและความสามารถจริงยังคงมีนัยสำคัญ โดยเฉพาะสำหรับงานที่ต้องการข้อมูลปัจจุบัน สมบูรณ์ และแม่นยำ ผู้ใช้ที่ได้ผลลัพธ์ดีที่สุดถือว่าระบบเหล่านี้เป็นเครื่องมือสร้างข้อความที่ซับซ้อนมากกว่าแหล่งความรู้ที่เชื่อถือได้ โดยออกแบบขั้นตอนการทำงานให้คำนึงถึงจุดอ่อนที่แท้จริงของเทคโนโลยี

อ้างอิง: LLMs are still surprisingly bad at some simple tasks