มาตรฐานการประเมิน AI เผชิญความกังวลที่เพิ่มขึ้นเรื่องการปนเปื้อนข้อมูลและต้นทุนที่ถูกซ่อนไว้

ทีมชุมชน BigGo
มาตรฐานการประเมิน AI เผชิญความกังวลที่เพิ่มขึ้นเรื่องการปนเปื้อนข้อมูลและต้นทุนที่ถูกซ่อนไว้

ชุมชนปัญญาประดิษฐ์กำลังต่อสู้กับความกังวลที่เพิ่มขึ้นเกี่ยวกับความน่าเชื่อถือของมาตรฐานการประเมิน AI ขณะที่นักวิจัยเน้นย้ำถึงปัญหาการปนเปื้อนข้อมูลและต้นทุนการคำนวณที่ไม่เปิดเผย ซึ่งอาจทำให้ประชาชนเข้าใจผิดเกี่ยวกับความสามารถที่แท้จริงของ AI

การปนเปื้อนข้อมูลการฝึกทำลายความถูกต้องของมาตรฐานการประเมิน

ปัญหาสำคัญที่รบกวนการประเมิน AI ในปัจจุบันคือการปนเปื้อนของชุดข้อมูลการฝึกด้วยปัญหามาตรฐานการประเมิน นักวิจัยชี้ให้เห็นว่าความสำเร็จของ AI ที่น่าประทับใจหลายอย่างอาจดูไม่น่าทึ่งนักหากข้อมูลการฝึกมีความโปร่งใส ปัญหานี้เกิดจากโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกด้วยข้อมูลอินเทอร์เน็ตจำนวนมหาศาล ซึ่งน่าจะรวมถึงรูปแบบต่างๆ ของปัญหามาตรฐานการประเมินและคำตอบของพวกมัน

ปัญหาการปนเปื้อนนี้แพร่หลายมากจนบริษัทบางแห่งถูกกล่าวหาว่าได้รับประโยชน์อย่างไม่เป็นธรรมผ่านการปฏิบัติที่น่าสงสัย ชุมชนได้สังเกตเห็นกรณีที่บริษัท AI ได้รับสิทธิพิเศษในการเข้าถึงปัญหามาตรฐานการประเมินก่อนการประเมินอย่างเป็นทางการ ซึ่งทำให้เกิดคำถามร้ายแรงเกี่ยวกับความซื่อสัตย์ของผลลัพธ์ที่รายงาน

การปนเปื้อนข้อมูล: เมื่อชุดข้อมูลการฝึกรวมตัวอย่างที่คล้ายกับปัญหาทดสอบโดยบังเอิญหรือตั้งใจ ทำให้ประสิทธิภาพของ AI ดูดีกว่าที่เป็นจริง

แหล่งที่มาของการปนเปื้อนข้อมูล:

  • ชุดข้อมูล CommonCrawl ที่มีปัญหาจากการทดสอบมาตรฐาน
  • ข้อมูลการฝึกสังเคราะห์ที่กลั่นมาจากโมเดลที่เคยเห็นการทดสอบมาตรฐาน
  • การเข้าถึงปัญหาการประเมินผลล่วงหน้าแบบเฉพาะ
  • รูปแบบและการเรียงสับเปลี่ยนของคำถามการทดสอบมาตรฐานที่มีอยู่

ต้นทุนการคำนวณที่ซ่อนอยู่บิดเบือนความเป็นไปได้ในโลกแห่งความจริง

นอกเหนือจากปัญหาข้อมูลแล้ว ชุมชน AI ยังเรียกร้องให้มีความโปร่งใสมากขึ้นในการรายงานต้นทุนที่แท้จริงของความสำเร็จของ AI การประกาศในปัจจุบันมักเน้นผลลัพธ์ที่ประสบความสำเร็จในขณะที่ละเว้นข้อมูลสำคัญเกี่ยวกับค่าใช้จ่ายการคำนวณและอัตราความล้มเหลว

ตัวอย่างเช่น หากระบบ AI มีต้นทุนทรัพยากรการคำนวณ 1,000 ดอลลาร์สหรัฐ ต่อการพยายาม แต่ประสบความสำเร็จเพียง 20% เท่านั้น ต้นทุนจริงต่อการแก้ปัญหาที่สำเร็จจะเพิ่มขึ้นเป็น 5,000 ดอลลาร์สหรัฐ ความแตกต่างอย่างมากในเศรษฐศาสตร์โลกแห่งความจริงนี้ไม่ค่อยถูกเปิดเผยในการประกาศสาธารณะ ทำให้เกิดความคาดหวังที่ไม่สมจริงเกี่ยวกับต้นทุนการใช้งาน AI

สถานการณ์จะซับซ้อนยิ่งขึ้นเมื่อพิจารณาการดูแลของมนุษย์ที่จำเป็นระหว่างการดำเนินงานของ AI แม้ว่าผู้เชี่ยวชาญด้านมนุษย์จะไม่แทรกแซงโดยตรง การปรากฏตัวและการติดตามของพวกเขาก็แสดงถึงต้นทุนเพิ่มเติมที่ควรนำมาพิจารณาในตัวชี้วัดประสิทธิภาพที่แท้จริง

ตัวอย่างการคำนวณต้นทุน:

  • ต้นทุนการประมวลผลของระบบ AI ต่อการพยายาม: $1,000 USD
  • อัตราความสำเร็จ: 20%
  • ต้นทุนจริงต่อการแก้ปัญหาที่สำเร็จ: $5,000 USD
  • ต้นทุนที่ซ่อนเร้นเพิ่มเติม: การดูแลของมนุษย์ การตรวจสอบ ความล้มเหลวที่เกี่ยวเนื่องกัน

การเล่นเกมมาตรฐานการประเมินคุกคามความก้าวหน้าทางวิทยาศาสตร์

แรงกดดันในการบรรลุคะแนนมาตรฐานการประเมินสูงได้สร้างสภาพแวดล้อมที่การปรับให้เหมาะสมสำหรับการทดสอบเฉพาะอาจมาแลกกับความสามารถทั่วไป ปรากฏการณ์นี้เกี่ยวข้องกับ Goodhart's Law ซึ่งชี้ให้เห็นว่าเมื่อตัวชี้วัดกลายเป็นเป้าหมาย มันจะหยุดเป็นตัวชี้วัดที่ดี

ปัญหาของมาตรฐานการประเมินคือมันมีประโยชน์มากสำหรับนักวิจัยที่ซื่อสัตย์ แต่เป็นพิษอย่างมากหากใช้เพื่อการตลาด การอวดอ้าง ฯลฯ

ความท้าทายนี้รุนแรงเป็นพิเศษเพราะมาตรฐานการประเมินสาธารณะส่วนใหญ่น่าจะรวมอยู่ในชุดข้อมูลการฝึกแล้วผ่านการรวบรวมข้อมูลเว็บ ทำให้เกือบเป็นไปไม่ได้ที่จะสร้างการประเมินที่ไม่ปนเปื้อนอย่างแท้จริง สิ่งนี้ทำให้นักวิจัยบางคนสนับสนุนมาตรฐานการประเมินส่วนตัวที่ไม่เผยแพร่ แม้ว่าจะมีข้อจำกัดและอคติของตัวเอง

แนวทางแก้ไขที่เสนอ:

  • การประเมินมาตรฐานแบบส่วนตัวที่ไม่เผยแพร่สู่สาธารณะ
  • การเปิดเผยค่าใช้จ่ายในการคำนวณและอัตราความล้มเหลวอย่างบังคับ
  • โปรโตคอลการรายงานแบบมาตรฐานสำหรับความสำเร็จของ AI
  • มุ่งเน้นไปที่ตัวชี้วัดประสิทธิภาพในโลกแห่งความเป็นจริงมากกว่ามาตรฐานที่จำกัด

ก้าวไปสู่มาตรฐานการประเมินที่โปร่งใส

เมื่อเทคโนโลยี AI เติบโตขึ้น ชุมชนตระหนักถึงความจำเป็นในการมีโปรโตคอลการประเมินที่เป็นมาตรฐาน ซึ่งต้องการการเปิดเผยวิธีการและการใช้ทรัพยากรอย่างครบถ้วน การเปลี่ยนแปลงนี้สะท้อนวิวัฒนาการที่เห็นในเทคโนโลยีอื่นๆ ที่การมุ่งเน้นในช่วงแรกเกี่ยวกับความสำเร็จที่ก้าวล้ำในที่สุดก็หันไปสู่การพิจารณาเชิงปฏิบัติของต้นทุน ประสิทธิภาพ และความน่าเชื่อถือ

เส้นทางไปข้างหน้าน่าจะเกี่ยวข้องกับแนวทางผสมผสาน: การประเมินส่วนตัวที่ออกแบบอย่างระมัดระวัง ข้อกำหนดการรายงานที่เป็นมาตรฐานสำหรับต้นทุนการคำนวณ และการเน้นประสิทธิภาพในโลกแห่งความจริงมากกว่าการปรับให้เหมาะสมกับมาตรฐานการประเมินแคบๆ เฉพาะผ่านการปฏิรูปที่ครอบคลุมเช่นนี้เท่านั้นที่ชุมชน AI จะสามารถฟื้นฟูความเชื่อมั่นในการอ้างสิทธิ์ประสิทธิภาพและเปิดใช้งานการตัดสินใจที่มีข้อมูลเกี่ยวกับการใช้งาน AI

อ้างอิง: Mastodon post