การศึกษาล่าสุดที่ตรวจสอบว่าโมเดลภาษาขนาดใหญ่เข้าใจรูปแบบตารางต่างๆ ได้ดีเพียงใด ได้จุดประกายการอภิปรายอย่างเข้มข้นในชุมชน AI โดยมีนักวิจัยตั้งคำถามทั้งผลการศึกษาและแนวทางการทดสอบที่ใช้
ขอบเขตการทดสอบที่จำกัดถูกวิพากษ์วิจารณ์อย่างหนัก
การศึกษาต้นฉบับทดสอบเพียงโมเดล GPT-4.1 nano ของ OpenAI เท่านั้นในรูปแบบข้อมูล 11 แบบ แม้ว่าหัวข้อจะอ้างว่าประเมิน LLMs โดยทั่วไป สมาชิกชุมชนชี้ให้เห็นข้อจำกัดสำคัญนี้อย่างรวดเร็ว โดยหลายคนโต้แย้งว่าการทดสอบโมเดลเดียว - และไม่ใช่แม้แต่โมเดลที่ใช้กันทั่วไป - ทำให้ข้อสรุปน่าสงสัยอย่างมาก นักวิจัยหลายคนได้ทำการทดสอบของตนเองโดยใช้โมเดลที่มีความสามารถมากกว่า เช่น GPT-5 และ Gemini 2.5 Pro พบผลลัพธ์ที่แตกต่างอย่างมากด้วยอัตราความแม่นยำเกือบสมบูรณ์แบบ
การเลือกใช้ GPT-4.1 nano ถูกวิพากษ์วิจารณ์เป็นพิเศษเนื่องจากถือว่าเป็นหนึ่งในโมเดลที่อ่อนแอกว่าที่มีอยู่ เมื่อสมาชิกชุมชนทำการทดสอบที่คล้ายกันกับโมเดลที่ล้ำสมัย พวกเขาค้นพบอัตราความแม่นยำที่ใกล้เคียง 100% ซึ่งชี้ให้เห็นว่าผลการศึกษาต้นฉบับอาจไม่สะท้อนประสิทธิภาพในโลกแห่งความเป็นจริงกับระบบ AI ปัจจุบัน
ผลการติดตามชุมชน (โมเดลขั้นสูง)
ประสิทธิภาพของ GPT-5:
- Markdown Key-Value: 100% (100 ตัวอย่าง)
- CSV: 100% (100 ตัวอย่าง)
- JSON: 100% (100 ตัวอย่าง)
ค่าเฉลี่ยหลายโมเดล (30 โมเดล, 500 แถว):
- CSV: 84.25%
- Markdown Table: 82.65%
- YAML: 81.85%
- JSON Lines: 79.85%
- Pipe-delimited: 79.45%
- JSON: 77.73%
- HTML table: 75.80%
- XML: 73.80%
![]() |
---|
บล็อกโพสต์นี้สำรวจความน่าเชื่อถือของ AI ในการประมวลผลรูปแบบตารางต่าง ๆ โดยเน้นการอภิปรายเกี่ยวกับประสิทธิภาพของ LLMs |
ประสิทธิภาพที่แย่น่าแปลกใจในทุกรูปแบบ
สิ่งที่น่าสะเทือนใจที่สุดเกี่ยวกับผลลัพธ์ต้นฉบับคือแม้แต่รูปแบบที่มีประสิทธิภาพดีที่สุด - โครงสร้าง markdown key-value แบบกำหนดเอง - ก็ได้ความแม่นยำเพียง 56.7% เท่านั้น สิ่งนี้ทำให้หลายคนตั้งคำถามว่า LLMs ควรถูกใช้สำหรับการประมวลผลตารางหรือไม่ เนื่องจากแนวทางการเขียนโปรแกรมแบบดั้งเดิมสามารถบรรลุความแม่นยำที่สมบูรณ์แบบสำหรับงานดังกล่าว
รูปแบบทั้งหมดถูกอ่านได้แย่มากจนทั้งหมดไร้ประโยชน์อย่างมีประสิทธิภาพ
การศึกษาพบว่ารูปแบบเช่น CSV และ JSON ซึ่งมักถูกสันนิษฐานว่าเป็นมิตรกับ LLM มีประสิทธิภาพแย่เป็นพิเศษที่ 44.8% และ 52.5% ตามลำดับ อย่างไรก็ตาม ชุมชนได้สังเกตว่าคะแนนต่ำเหล่านี้อาจสะท้อนโมเดลและขนาดชุดข้อมูลเฉพาะที่เลือกมากกว่าข้อจำกัดโดยธรรมชาติของ LLMs
ผลการศึกษาต้นฉบับ ( GPT-4.1 nano )
รูปแบบ | ความแม่นยำ | โทเค็น |
---|---|---|
Markdown Key-Value | 56.7% | 52,354 |
Arrow | 55.7% | 50,301 |
XLSX | 53.8% | 46,359 |
HTML | 52.7% | 51,504 |
JSON | 52.5% | 66,596 |
Markdown Table | 48.6% | 33,541 |
Natural Language | 46.9% | 43,871 |
XML | 45.5% | 54,691 |
CSV | 44.8% | 13,524 |
Pipe Delimited | 41.7% | 43,584 |
แนวทางทางเลือกได้รับความสนใจ
การอภิปรายได้เน้นย้ำแนวทางที่ปฏิบัติได้มากกว่าหลายแนวทางสำหรับการประมวลผลตารางด้วยระบบ AI ผู้ปฏิบัติงานหลายคนสนับสนุนการใช้ LLMs เพื่อสร้างโค้ดที่ประมวลผลข้อมูลแทนการขอให้พวกเขาแยกวิเคราะห์ตารางโดยตรง แนวทางนี้ใช้ประโยชน์จากความสามารถในการเขียนโค้ดของโมเดลในขณะที่หลีกเลี่ยงจุดอ่อนที่ชัดเจนในการจัดการข้อมูลโดยตรง
คนอื่นๆ แนะนำให้ใช้แนวทาง agentic ที่ LLMs สร้างคำสั่ง SQL หรือใช้เครื่องมือเช่น pandas เพื่อวิเคราะห์ข้อมูล แทนที่จะพยายามประมวลผลเนื้อหาตารางดิบ วิธีการเหล่านี้สามารถบรรลุความแม่นยำที่สูงขึ้นมากในขณะที่ยังได้รับประโยชน์จากความสามารถของ LLM ในการเข้าใจคำสั่งภาษาธรรมชาติ
ขนาดชุดข้อมูลและคุณภาพโมเดลสำคัญที่สุด
การทดสอบติดตามโดยสมาชิกชุมชนได้เผยให้เห็นว่าทั้งขนาดชุดข้อมูลและความสามารถของโมเดลมีผลกระทบอย่างมหาศาลต่อความแม่นยำ ในขณะที่การศึกษาต้นฉบับใช้ระเบียน 1,000 รายการเพื่อลดความแม่นยำโดยเจตนาสำหรับวัตถุประสงค์การทดสอบ ชุดข้อมูลที่เล็กกว่าของ 100-500 ระเบียนแสดงประสิทธิภาพที่ดีกว่ามากในทุกรูปแบบ
ที่สำคัญกว่านั้น การทดสอบกับโมเดลขั้นสูงเช่น GPT-5 และ Gemini 2.5 Flash ได้แสดงความแม่นยำเกือบสมบูรณ์แบบโดยไม่คำนึงถึงการเลือกรูปแบบ สิ่งนี้ชี้ให้เห็นว่าสำหรับการประยุกต์ใช้ในทางปฏิบัติ การเลือกโมเดลที่มีความสามารถอาจสำคัญกว่าการปรับรูปแบบข้อมูลให้เหมาะสม
บทสรุป
แม้ว่าการศึกษาต้นฉบับจะหยิบยกคำถามสำคัญเกี่ยวกับการปรับรูปแบบตารางให้เหมาะสม การตอบสนองของชุมชนได้เน้นย้ำข้อจำกัดที่สำคัญในวิธีการทดสอบ ความแตกต่างอย่างมากในผลลัพธ์ระหว่างโมเดลพื้นฐานและขั้นสูงชี้ให้เห็นว่าการเลือกรูปแบบอาจมีความสำคัญน้อยลงเมื่อความสามารถ AI ปรับปรุงขึ้น สำหรับการประยุกต์ใช้ปัจจุบัน ผู้ปฏิบัติงานได้รับคำแนะนำให้มุ่งเน้นไปที่การใช้โมเดลที่มีความสามารถและพิจารณาแนวทางการสร้างโค้ดแทนการแยกวิเคราะห์ตารางโดยตรงสำหรับความแม่นยำที่สำคัญต่อภารกิจ
อ้างอิง: Which Table Format Do LLMs Understand Best? (Results for 11 Formats)