การศึกษาเผยช่องว่างความแม่นยำครั้งใหญ่ในการประมวลผลตาราง LLM จุดประกายการถกเถียงในชุมชนเกี่ยวกับวิธีการทดสอบ

ทีมชุมชน BigGo
การศึกษาเผยช่องว่างความแม่นยำครั้งใหญ่ในการประมวลผลตาราง LLM จุดประกายการถกเถียงในชุมชนเกี่ยวกับวิธีการทดสอบ

การศึกษาล่าสุดที่ตรวจสอบว่าโมเดลภาษาขนาดใหญ่เข้าใจรูปแบบตารางต่างๆ ได้ดีเพียงใด ได้จุดประกายการอภิปรายอย่างเข้มข้นในชุมชน AI โดยมีนักวิจัยตั้งคำถามทั้งผลการศึกษาและแนวทางการทดสอบที่ใช้

ขอบเขตการทดสอบที่จำกัดถูกวิพากษ์วิจารณ์อย่างหนัก

การศึกษาต้นฉบับทดสอบเพียงโมเดล GPT-4.1 nano ของ OpenAI เท่านั้นในรูปแบบข้อมูล 11 แบบ แม้ว่าหัวข้อจะอ้างว่าประเมิน LLMs โดยทั่วไป สมาชิกชุมชนชี้ให้เห็นข้อจำกัดสำคัญนี้อย่างรวดเร็ว โดยหลายคนโต้แย้งว่าการทดสอบโมเดลเดียว - และไม่ใช่แม้แต่โมเดลที่ใช้กันทั่วไป - ทำให้ข้อสรุปน่าสงสัยอย่างมาก นักวิจัยหลายคนได้ทำการทดสอบของตนเองโดยใช้โมเดลที่มีความสามารถมากกว่า เช่น GPT-5 และ Gemini 2.5 Pro พบผลลัพธ์ที่แตกต่างอย่างมากด้วยอัตราความแม่นยำเกือบสมบูรณ์แบบ

การเลือกใช้ GPT-4.1 nano ถูกวิพากษ์วิจารณ์เป็นพิเศษเนื่องจากถือว่าเป็นหนึ่งในโมเดลที่อ่อนแอกว่าที่มีอยู่ เมื่อสมาชิกชุมชนทำการทดสอบที่คล้ายกันกับโมเดลที่ล้ำสมัย พวกเขาค้นพบอัตราความแม่นยำที่ใกล้เคียง 100% ซึ่งชี้ให้เห็นว่าผลการศึกษาต้นฉบับอาจไม่สะท้อนประสิทธิภาพในโลกแห่งความเป็นจริงกับระบบ AI ปัจจุบัน

ผลการติดตามชุมชน (โมเดลขั้นสูง)

ประสิทธิภาพของ GPT-5:

  • Markdown Key-Value: 100% (100 ตัวอย่าง)
  • CSV: 100% (100 ตัวอย่าง)
  • JSON: 100% (100 ตัวอย่าง)

ค่าเฉลี่ยหลายโมเดล (30 โมเดล, 500 แถว):

  • CSV: 84.25%
  • Markdown Table: 82.65%
  • YAML: 81.85%
  • JSON Lines: 79.85%
  • Pipe-delimited: 79.45%
  • JSON: 77.73%
  • HTML table: 75.80%
  • XML: 73.80%
บล็อกโพสต์นี้สำรวจความน่าเชื่อถือของ AI ในการประมวลผลรูปแบบตารางต่าง ๆ โดยเน้นการอภิปรายเกี่ยวกับประสิทธิภาพของ LLMs
บล็อกโพสต์นี้สำรวจความน่าเชื่อถือของ AI ในการประมวลผลรูปแบบตารางต่าง ๆ โดยเน้นการอภิปรายเกี่ยวกับประสิทธิภาพของ LLMs

ประสิทธิภาพที่แย่น่าแปลกใจในทุกรูปแบบ

สิ่งที่น่าสะเทือนใจที่สุดเกี่ยวกับผลลัพธ์ต้นฉบับคือแม้แต่รูปแบบที่มีประสิทธิภาพดีที่สุด - โครงสร้าง markdown key-value แบบกำหนดเอง - ก็ได้ความแม่นยำเพียง 56.7% เท่านั้น สิ่งนี้ทำให้หลายคนตั้งคำถามว่า LLMs ควรถูกใช้สำหรับการประมวลผลตารางหรือไม่ เนื่องจากแนวทางการเขียนโปรแกรมแบบดั้งเดิมสามารถบรรลุความแม่นยำที่สมบูรณ์แบบสำหรับงานดังกล่าว

รูปแบบทั้งหมดถูกอ่านได้แย่มากจนทั้งหมดไร้ประโยชน์อย่างมีประสิทธิภาพ

การศึกษาพบว่ารูปแบบเช่น CSV และ JSON ซึ่งมักถูกสันนิษฐานว่าเป็นมิตรกับ LLM มีประสิทธิภาพแย่เป็นพิเศษที่ 44.8% และ 52.5% ตามลำดับ อย่างไรก็ตาม ชุมชนได้สังเกตว่าคะแนนต่ำเหล่านี้อาจสะท้อนโมเดลและขนาดชุดข้อมูลเฉพาะที่เลือกมากกว่าข้อจำกัดโดยธรรมชาติของ LLMs

ผลการศึกษาต้นฉบับ ( GPT-4.1 nano )

รูปแบบ ความแม่นยำ โทเค็น
Markdown Key-Value 56.7% 52,354
Arrow 55.7% 50,301
XLSX 53.8% 46,359
HTML 52.7% 51,504
JSON 52.5% 66,596
Markdown Table 48.6% 33,541
Natural Language 46.9% 43,871
XML 45.5% 54,691
CSV 44.8% 13,524
Pipe Delimited 41.7% 43,584

แนวทางทางเลือกได้รับความสนใจ

การอภิปรายได้เน้นย้ำแนวทางที่ปฏิบัติได้มากกว่าหลายแนวทางสำหรับการประมวลผลตารางด้วยระบบ AI ผู้ปฏิบัติงานหลายคนสนับสนุนการใช้ LLMs เพื่อสร้างโค้ดที่ประมวลผลข้อมูลแทนการขอให้พวกเขาแยกวิเคราะห์ตารางโดยตรง แนวทางนี้ใช้ประโยชน์จากความสามารถในการเขียนโค้ดของโมเดลในขณะที่หลีกเลี่ยงจุดอ่อนที่ชัดเจนในการจัดการข้อมูลโดยตรง

คนอื่นๆ แนะนำให้ใช้แนวทาง agentic ที่ LLMs สร้างคำสั่ง SQL หรือใช้เครื่องมือเช่น pandas เพื่อวิเคราะห์ข้อมูล แทนที่จะพยายามประมวลผลเนื้อหาตารางดิบ วิธีการเหล่านี้สามารถบรรลุความแม่นยำที่สูงขึ้นมากในขณะที่ยังได้รับประโยชน์จากความสามารถของ LLM ในการเข้าใจคำสั่งภาษาธรรมชาติ

ขนาดชุดข้อมูลและคุณภาพโมเดลสำคัญที่สุด

การทดสอบติดตามโดยสมาชิกชุมชนได้เผยให้เห็นว่าทั้งขนาดชุดข้อมูลและความสามารถของโมเดลมีผลกระทบอย่างมหาศาลต่อความแม่นยำ ในขณะที่การศึกษาต้นฉบับใช้ระเบียน 1,000 รายการเพื่อลดความแม่นยำโดยเจตนาสำหรับวัตถุประสงค์การทดสอบ ชุดข้อมูลที่เล็กกว่าของ 100-500 ระเบียนแสดงประสิทธิภาพที่ดีกว่ามากในทุกรูปแบบ

ที่สำคัญกว่านั้น การทดสอบกับโมเดลขั้นสูงเช่น GPT-5 และ Gemini 2.5 Flash ได้แสดงความแม่นยำเกือบสมบูรณ์แบบโดยไม่คำนึงถึงการเลือกรูปแบบ สิ่งนี้ชี้ให้เห็นว่าสำหรับการประยุกต์ใช้ในทางปฏิบัติ การเลือกโมเดลที่มีความสามารถอาจสำคัญกว่าการปรับรูปแบบข้อมูลให้เหมาะสม

บทสรุป

แม้ว่าการศึกษาต้นฉบับจะหยิบยกคำถามสำคัญเกี่ยวกับการปรับรูปแบบตารางให้เหมาะสม การตอบสนองของชุมชนได้เน้นย้ำข้อจำกัดที่สำคัญในวิธีการทดสอบ ความแตกต่างอย่างมากในผลลัพธ์ระหว่างโมเดลพื้นฐานและขั้นสูงชี้ให้เห็นว่าการเลือกรูปแบบอาจมีความสำคัญน้อยลงเมื่อความสามารถ AI ปรับปรุงขึ้น สำหรับการประยุกต์ใช้ปัจจุบัน ผู้ปฏิบัติงานได้รับคำแนะนำให้มุ่งเน้นไปที่การใช้โมเดลที่มีความสามารถและพิจารณาแนวทางการสร้างโค้ดแทนการแยกวิเคราะห์ตารางโดยตรงสำหรับความแม่นยำที่สำคัญต่อภารกิจ

อ้างอิง: Which Table Format Do LLMs Understand Best? (Results for 11 Formats)