คำสัญญาของเครื่องมือวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วย AI ได้ดึงดูดความสนใจทั่วทั้งอุตสาหกรรมเทคโนโลยี แต่นักพัฒนาที่ทำงานกับระบบเหล่านี้กำลังค้นพบว่าช่องว่างระหว่างการสาธิตที่น่าประทับใจกับโซลูชันที่พร้อมใช้งานจริงนั้นกว้างกว่าที่คาดไว้มาก การสนทนาล่าสุดในหมู่ผู้ปฏิบัติงานเผยให้เห็นว่าการสร้างนักวิเคราะห์ข้อมูล AI ที่มีประโยชน์อย่างแท้จริงนั้นเกี่ยวข้องกับการแก้ปัญหาที่ซับซ้อนซึ่งไปไกลกว่าการสืบค้นฐานข้อมูลแบบง่าย ๆ
ปัญหาข้อจำกัดของ Text-to-SQL
แม้ว่าเครื่องมือวิเคราะห์ข้อมูล AI หลายตัวจะเริ่มต้นด้วยการแปลง text-to-SQL เป็นพื้นฐาน แต่วิธีการนี้จะพบกำแพงอย่างรวดเร็วเมื่อต้องจัดการกับคำถามทางธุรกิจจริง การสืบค้นแบบง่าย ๆ เช่น แสดงรายได้ตามช่วงเวลา อาจทำงานได้ดีสำหรับการสาธิต แต่การวิเคราะห์ทางธุรกิจจริงต้องการความเข้าใจในบริบท ความสัมพันธ์ระหว่างแหล่งข้อมูลต่าง ๆ และการคำนวณที่ซับซ้อนซึ่งครอบคลุมหลายระบบ
ชุมชนได้สังเกตเห็นรูปแบบที่เกิดขึ้นซ้ำ ๆ ที่เครื่องมือข้อมูล AI เก่งในการรวมข้อมูลพื้นฐาน แต่ประสบปัญหากับการวิเคราะห์แบบหลายขั้นตอนที่มีความละเอียดอ่อนซึ่งธุรกิจต้องการจริง ๆ ข้อจำกัดนี้จะเห็นได้ชัดเจนเป็นพิเศษเมื่อผู้ใช้ถามคำถามที่ต้องการความรู้เฉพาะด้านหรือความเข้าใจเกี่ยวกับความสัมพันธ์ของตัวชี้วัดทางธุรกิจต่าง ๆ
ความท้าทายด้านเอกสารและคุณภาพข้อมูล
อุปสรรคสำคัญที่นักพัฒนาพบอย่างสม่ำเสมอคือสถานะที่แย่ของเอกสารข้อมูลในองค์กรส่วนใหญ่ บริษัทหลายแห่งขาด metadata ที่เหมาะสม การติดตามต้นกำเนิดข้อมูลที่ชัดเจน หรือแม้แต่เอกสารพื้นฐานเกี่ยวกับสิ่งที่ตารางฐานข้อมูลของพวกเขาประกอบด้วย
ต้องมีใครสักคนที่ไหนสักแห่งไปดูทุกตารางและฟิลด์แล้วจัดทำเอกสารว่ามันมาจากไหน เมื่อไหร่ และหมายความว่าอะไรจริง ๆ สถานที่ที่ทำแบบนี้มีน้อยมาก ๆ
ความเป็นจริงนี้สร้างปัญหาไก่กับไข่สำหรับนักวิเคราะห์ข้อมูล AI ระบบต้องการเลเยอร์ความหมายที่มีโครงสร้างดีเพื่อทำงานได้อย่างมีประสิทธิภาพ แต่องค์กรส่วนใหญ่ไม่ได้ลงทุนในการสร้างองค์ประกอบพื้นฐานเหล่านี้ แม้แต่ในบริษัทเทคโนโลยี เอกสารข้อมูลที่ครอบคลุมยังคงหายาก ทำให้ระบบ AI ยากที่จะให้การวิเคราะห์ที่แม่นยำและมีความหมาย
จุดบกพร่องทั่วไปที่ระบุได้:
- การเกิดภาพลวงตาในการสร้างคำสั่งค้นหา
- การตีความบริบทที่ขาดหายไปหรือไม่ถูกต้อง
- การสร้างโค้ดที่ซับซ้อนเกินไป
- ปัญหาความล่าช้าในกระบวนการหลายขั้นตอน
- การจัดการเจตนาของผู้ใช้ที่คลุมเครือ
- ช่องว่างในคุณภาพข้อมูลและเอกสารประกอบ
เลเยอร์ความหมายเป็นพื้นฐานที่หายไป
โซลูชันที่กำลังได้รับความนิยมเกี่ยวข้องกับการสร้างเลเยอร์การสร้างแบบจำลองความหมายที่อยู่ระหว่างการสืบค้นภาษาธรรมชาติและข้อมูลดิบ เลเยอร์เหล่านี้เข้ารหัสตรรกะทางธุรกิจ กำหนดความสัมพันธ์ระหว่างแหล่งข้อมูล และให้บริบทที่ระบบ AI ต้องการเพื่อสร้างผลลัพธ์ที่แม่นยำ
เครื่องมือเช่น Malloy (ที่กล่าวถึงเป็น MeltDB ในการสนทนาบางครั้ง) กำลังเกิดขึ้นเป็นวิธีการสร้างพื้นฐานความหมายเหล่านี้ อย่างไรก็ตาม การใช้งานระบบเหล่านี้ต้องการงานล่วงหน้าอย่างมากในการจับคู่ตรรกะทางธุรกิจและความสัมพันธ์ของข้อมูล ซึ่งเป็นงานที่องค์กรหลายแห่งไม่ได้ให้ความสำคัญ
วิธีการหลายตัวแทนและความเป็นจริงในการผลิต
นักพัฒนาพบว่านักวิเคราะห์ข้อมูล AI ในการผลิตต้องการการประสานงานของคอมโพเนนต์เฉพาะทางหลายตัวแทนที่จะพึ่งพาโมเดลภาษาขนาดใหญ่ตัวเดียว ซึ่งรวมถึงตัวแทนแยกต่างหากสำหรับการเข้าใจเจตนาของผู้ใช้ การดึงบริบทที่เกี่ยวข้อง การสร้างโค้ด และการตรวจสอบผลลัพธ์
ความท้าทายทางเทคนิคขยายไปไกลกว่าการสร้างคำสั่ง SQL ไปถึงการสร้างโค้ด Python การสร้างแผนภูมิ การรวมกับแหล่งข้อมูลภายนอก และการรักษาความสอดคล้องในการวิเคราะห์ประเภทต่าง ๆ คอมโพเนนต์แต่ละตัวเหล่านี้แนะนำจุดความล้มเหลวที่อาจเกิดขึ้นซึ่งต้องได้รับการจัดการในสภาพแวดล้อมการผลิต
องค์ประกอบทางเทคนิคหลักสำหรับ AI Data Analysts ในระดับการผลิต:
- ชั้นการสร้างแบบจำลองเชิงความหมาย (ใช้เครื่องมือเช่น Malloy/MeltDB )
- ระบบการประสานงานแบบ Multi-agent
- การดึงข้อมูลและการจัดการบริบท
- การสร้างโค้ดสำหรับ SQL และ Python
- การสร้างแผนภูมิและการแสดงผลข้อมูล
- การรวมแหล่งข้อมูลภายนอก
- ระบบการตรวจสอบและจัดการข้อผิดพลาด
![]() |
---|
แผนภูมิแท่งนี้แสดงให้เห็นความแตกต่างด้านประสิทธิภาพของโมเดล AI ต่าง ๆ ในการปฏิบัติตามคำสั่งเฉพาะทางโดเมน โดยเน้นย้ำถึงความซับซ้อนของแนวทาง multi-agent ในการวิเคราะห์ข้อมูล AI |
กระบวนทัศน์บริบทและเครื่องมือ
ข้อมูลเชิงลึกสำคัญที่เกิดขึ้นจากชุมชนนักพัฒนาคือบริบทและเครื่องมือที่เหมาะสมเป็นผลิตภัณฑ์หลักจริง ๆ ไม่ใช่เพียงองค์ประกอบสนับสนุน คอมโพเนนต์ AI ทำงานได้ดีที่สุดเมื่อมีพื้นที่ค้นหาที่แคบและมีการกำหนดไว้อย่างชัดเจน และมีข้อจำกัดที่ชัดเจนในการทำงาน
วิธีการนี้ต้องการการคิดใหม่เกี่ยวกับวิธีการสร้างเครื่องมือวิเคราะห์ข้อมูล AI โดยเน้นที่การสร้างพื้นฐานความหมายที่แข็งแกร่งก่อน แล้วจึงเพิ่มความสามารถ AI ไว้ด้านบน แทนที่จะเริ่มต้นด้วยโมเดลภาษาขนาดใหญ่และหวังว่าพวกมันจะสามารถเข้าใจบริบทได้เอง
การสนทนาเผยให้เห็นว่าแม้เทคโนโลยีสำหรับการวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วย AI จะยังคงพัฒนาต่อไป แต่ความท้าทายที่แท้จริงอยู่ในงานพื้นฐานของการจัดระเบียบและจัดทำเอกสารข้อมูลในรูปแบบที่ระบบ AI สามารถใช้ได้อย่างมีประสิทธิภาพ ความสำเร็จในพื้นที่นี้ต้องการการให้ความสำคัญกับวิศวกรรมข้อมูลและการออกแบบกระบวนการทางธุรกิจมากพอ ๆ กับความสามารถของโมเดล AI