การสร้างนักวิเคราะห์ข้อมูล AI ต้องการมากกว่า Text-to-SQL นักพัฒนาแชร์ความท้าทายในโลกจริง

ทีมชุมชน BigGo
การสร้างนักวิเคราะห์ข้อมูล AI ต้องการมากกว่า Text-to-SQL นักพัฒนาแชร์ความท้าทายในโลกจริง

คำสัญญาของเครื่องมือวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วย AI ได้ดึงดูดความสนใจทั่วทั้งอุตสาหกรรมเทคโนโลยี แต่นักพัฒนาที่ทำงานกับระบบเหล่านี้กำลังค้นพบว่าช่องว่างระหว่างการสาธิตที่น่าประทับใจกับโซลูชันที่พร้อมใช้งานจริงนั้นกว้างกว่าที่คาดไว้มาก การสนทนาล่าสุดในหมู่ผู้ปฏิบัติงานเผยให้เห็นว่าการสร้างนักวิเคราะห์ข้อมูล AI ที่มีประโยชน์อย่างแท้จริงนั้นเกี่ยวข้องกับการแก้ปัญหาที่ซับซ้อนซึ่งไปไกลกว่าการสืบค้นฐานข้อมูลแบบง่าย ๆ

ปัญหาข้อจำกัดของ Text-to-SQL

แม้ว่าเครื่องมือวิเคราะห์ข้อมูล AI หลายตัวจะเริ่มต้นด้วยการแปลง text-to-SQL เป็นพื้นฐาน แต่วิธีการนี้จะพบกำแพงอย่างรวดเร็วเมื่อต้องจัดการกับคำถามทางธุรกิจจริง การสืบค้นแบบง่าย ๆ เช่น แสดงรายได้ตามช่วงเวลา อาจทำงานได้ดีสำหรับการสาธิต แต่การวิเคราะห์ทางธุรกิจจริงต้องการความเข้าใจในบริบท ความสัมพันธ์ระหว่างแหล่งข้อมูลต่าง ๆ และการคำนวณที่ซับซ้อนซึ่งครอบคลุมหลายระบบ

ชุมชนได้สังเกตเห็นรูปแบบที่เกิดขึ้นซ้ำ ๆ ที่เครื่องมือข้อมูล AI เก่งในการรวมข้อมูลพื้นฐาน แต่ประสบปัญหากับการวิเคราะห์แบบหลายขั้นตอนที่มีความละเอียดอ่อนซึ่งธุรกิจต้องการจริง ๆ ข้อจำกัดนี้จะเห็นได้ชัดเจนเป็นพิเศษเมื่อผู้ใช้ถามคำถามที่ต้องการความรู้เฉพาะด้านหรือความเข้าใจเกี่ยวกับความสัมพันธ์ของตัวชี้วัดทางธุรกิจต่าง ๆ

ความท้าทายด้านเอกสารและคุณภาพข้อมูล

อุปสรรคสำคัญที่นักพัฒนาพบอย่างสม่ำเสมอคือสถานะที่แย่ของเอกสารข้อมูลในองค์กรส่วนใหญ่ บริษัทหลายแห่งขาด metadata ที่เหมาะสม การติดตามต้นกำเนิดข้อมูลที่ชัดเจน หรือแม้แต่เอกสารพื้นฐานเกี่ยวกับสิ่งที่ตารางฐานข้อมูลของพวกเขาประกอบด้วย

ต้องมีใครสักคนที่ไหนสักแห่งไปดูทุกตารางและฟิลด์แล้วจัดทำเอกสารว่ามันมาจากไหน เมื่อไหร่ และหมายความว่าอะไรจริง ๆ สถานที่ที่ทำแบบนี้มีน้อยมาก ๆ

ความเป็นจริงนี้สร้างปัญหาไก่กับไข่สำหรับนักวิเคราะห์ข้อมูล AI ระบบต้องการเลเยอร์ความหมายที่มีโครงสร้างดีเพื่อทำงานได้อย่างมีประสิทธิภาพ แต่องค์กรส่วนใหญ่ไม่ได้ลงทุนในการสร้างองค์ประกอบพื้นฐานเหล่านี้ แม้แต่ในบริษัทเทคโนโลยี เอกสารข้อมูลที่ครอบคลุมยังคงหายาก ทำให้ระบบ AI ยากที่จะให้การวิเคราะห์ที่แม่นยำและมีความหมาย

จุดบกพร่องทั่วไปที่ระบุได้:

  • การเกิดภาพลวงตาในการสร้างคำสั่งค้นหา
  • การตีความบริบทที่ขาดหายไปหรือไม่ถูกต้อง
  • การสร้างโค้ดที่ซับซ้อนเกินไป
  • ปัญหาความล่าช้าในกระบวนการหลายขั้นตอน
  • การจัดการเจตนาของผู้ใช้ที่คลุมเครือ
  • ช่องว่างในคุณภาพข้อมูลและเอกสารประกอบ

เลเยอร์ความหมายเป็นพื้นฐานที่หายไป

โซลูชันที่กำลังได้รับความนิยมเกี่ยวข้องกับการสร้างเลเยอร์การสร้างแบบจำลองความหมายที่อยู่ระหว่างการสืบค้นภาษาธรรมชาติและข้อมูลดิบ เลเยอร์เหล่านี้เข้ารหัสตรรกะทางธุรกิจ กำหนดความสัมพันธ์ระหว่างแหล่งข้อมูล และให้บริบทที่ระบบ AI ต้องการเพื่อสร้างผลลัพธ์ที่แม่นยำ

เครื่องมือเช่น Malloy (ที่กล่าวถึงเป็น MeltDB ในการสนทนาบางครั้ง) กำลังเกิดขึ้นเป็นวิธีการสร้างพื้นฐานความหมายเหล่านี้ อย่างไรก็ตาม การใช้งานระบบเหล่านี้ต้องการงานล่วงหน้าอย่างมากในการจับคู่ตรรกะทางธุรกิจและความสัมพันธ์ของข้อมูล ซึ่งเป็นงานที่องค์กรหลายแห่งไม่ได้ให้ความสำคัญ

วิธีการหลายตัวแทนและความเป็นจริงในการผลิต

นักพัฒนาพบว่านักวิเคราะห์ข้อมูล AI ในการผลิตต้องการการประสานงานของคอมโพเนนต์เฉพาะทางหลายตัวแทนที่จะพึ่งพาโมเดลภาษาขนาดใหญ่ตัวเดียว ซึ่งรวมถึงตัวแทนแยกต่างหากสำหรับการเข้าใจเจตนาของผู้ใช้ การดึงบริบทที่เกี่ยวข้อง การสร้างโค้ด และการตรวจสอบผลลัพธ์

ความท้าทายทางเทคนิคขยายไปไกลกว่าการสร้างคำสั่ง SQL ไปถึงการสร้างโค้ด Python การสร้างแผนภูมิ การรวมกับแหล่งข้อมูลภายนอก และการรักษาความสอดคล้องในการวิเคราะห์ประเภทต่าง ๆ คอมโพเนนต์แต่ละตัวเหล่านี้แนะนำจุดความล้มเหลวที่อาจเกิดขึ้นซึ่งต้องได้รับการจัดการในสภาพแวดล้อมการผลิต

องค์ประกอบทางเทคนิคหลักสำหรับ AI Data Analysts ในระดับการผลิต:

  • ชั้นการสร้างแบบจำลองเชิงความหมาย (ใช้เครื่องมือเช่น Malloy/MeltDB )
  • ระบบการประสานงานแบบ Multi-agent
  • การดึงข้อมูลและการจัดการบริบท
  • การสร้างโค้ดสำหรับ SQL และ Python
  • การสร้างแผนภูมิและการแสดงผลข้อมูล
  • การรวมแหล่งข้อมูลภายนอก
  • ระบบการตรวจสอบและจัดการข้อผิดพลาด
แผนภูมิแท่งนี้แสดงให้เห็นความแตกต่างด้านประสิทธิภาพของโมเดล AI ต่าง ๆ ในการปฏิบัติตามคำสั่งเฉพาะทางโดเมน โดยเน้นย้ำถึงความซับซ้อนของแนวทาง multi-agent ในการวิเคราะห์ข้อมูล AI
แผนภูมิแท่งนี้แสดงให้เห็นความแตกต่างด้านประสิทธิภาพของโมเดล AI ต่าง ๆ ในการปฏิบัติตามคำสั่งเฉพาะทางโดเมน โดยเน้นย้ำถึงความซับซ้อนของแนวทาง multi-agent ในการวิเคราะห์ข้อมูล AI

กระบวนทัศน์บริบทและเครื่องมือ

ข้อมูลเชิงลึกสำคัญที่เกิดขึ้นจากชุมชนนักพัฒนาคือบริบทและเครื่องมือที่เหมาะสมเป็นผลิตภัณฑ์หลักจริง ๆ ไม่ใช่เพียงองค์ประกอบสนับสนุน คอมโพเนนต์ AI ทำงานได้ดีที่สุดเมื่อมีพื้นที่ค้นหาที่แคบและมีการกำหนดไว้อย่างชัดเจน และมีข้อจำกัดที่ชัดเจนในการทำงาน

วิธีการนี้ต้องการการคิดใหม่เกี่ยวกับวิธีการสร้างเครื่องมือวิเคราะห์ข้อมูล AI โดยเน้นที่การสร้างพื้นฐานความหมายที่แข็งแกร่งก่อน แล้วจึงเพิ่มความสามารถ AI ไว้ด้านบน แทนที่จะเริ่มต้นด้วยโมเดลภาษาขนาดใหญ่และหวังว่าพวกมันจะสามารถเข้าใจบริบทได้เอง

การสนทนาเผยให้เห็นว่าแม้เทคโนโลยีสำหรับการวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วย AI จะยังคงพัฒนาต่อไป แต่ความท้าทายที่แท้จริงอยู่ในงานพื้นฐานของการจัดระเบียบและจัดทำเอกสารข้อมูลในรูปแบบที่ระบบ AI สามารถใช้ได้อย่างมีประสิทธิภาพ ความสำเร็จในพื้นที่นี้ต้องการการให้ความสำคัญกับวิศวกรรมข้อมูลและการออกแบบกระบวนการทางธุรกิจมากพอ ๆ กับความสามารถของโมเดล AI

อ้างอิง: Lessons on building an AI data analyst