ชุมชนปัญญาประดิษฐ์กำลังต่อสู้กับความกังวลที่เพิ่มขึ้นเกี่ยวกับความน่าเชื่อถือของมาตรฐานการประเมิน AI ขณะที่นักวิจัยเน้นย้ำถึงปัญหาการปนเปื้อนข้อมูลและต้นทุนการคำนวณที่ไม่เปิดเผย ซึ่งอาจทำให้ประชาชนเข้าใจผิดเกี่ยวกับความสามารถที่แท้จริงของ AI
การปนเปื้อนข้อมูลการฝึกทำลายความถูกต้องของมาตรฐานการประเมิน
ปัญหาสำคัญที่รบกวนการประเมิน AI ในปัจจุบันคือการปนเปื้อนของชุดข้อมูลการฝึกด้วยปัญหามาตรฐานการประเมิน นักวิจัยชี้ให้เห็นว่าความสำเร็จของ AI ที่น่าประทับใจหลายอย่างอาจดูไม่น่าทึ่งนักหากข้อมูลการฝึกมีความโปร่งใส ปัญหานี้เกิดจากโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกด้วยข้อมูลอินเทอร์เน็ตจำนวนมหาศาล ซึ่งน่าจะรวมถึงรูปแบบต่างๆ ของปัญหามาตรฐานการประเมินและคำตอบของพวกมัน
ปัญหาการปนเปื้อนนี้แพร่หลายมากจนบริษัทบางแห่งถูกกล่าวหาว่าได้รับประโยชน์อย่างไม่เป็นธรรมผ่านการปฏิบัติที่น่าสงสัย ชุมชนได้สังเกตเห็นกรณีที่บริษัท AI ได้รับสิทธิพิเศษในการเข้าถึงปัญหามาตรฐานการประเมินก่อนการประเมินอย่างเป็นทางการ ซึ่งทำให้เกิดคำถามร้ายแรงเกี่ยวกับความซื่อสัตย์ของผลลัพธ์ที่รายงาน
การปนเปื้อนข้อมูล: เมื่อชุดข้อมูลการฝึกรวมตัวอย่างที่คล้ายกับปัญหาทดสอบโดยบังเอิญหรือตั้งใจ ทำให้ประสิทธิภาพของ AI ดูดีกว่าที่เป็นจริง
แหล่งที่มาของการปนเปื้อนข้อมูล:
- ชุดข้อมูล CommonCrawl ที่มีปัญหาจากการทดสอบมาตรฐาน
- ข้อมูลการฝึกสังเคราะห์ที่กลั่นมาจากโมเดลที่เคยเห็นการทดสอบมาตรฐาน
- การเข้าถึงปัญหาการประเมินผลล่วงหน้าแบบเฉพาะ
- รูปแบบและการเรียงสับเปลี่ยนของคำถามการทดสอบมาตรฐานที่มีอยู่
ต้นทุนการคำนวณที่ซ่อนอยู่บิดเบือนความเป็นไปได้ในโลกแห่งความจริง
นอกเหนือจากปัญหาข้อมูลแล้ว ชุมชน AI ยังเรียกร้องให้มีความโปร่งใสมากขึ้นในการรายงานต้นทุนที่แท้จริงของความสำเร็จของ AI การประกาศในปัจจุบันมักเน้นผลลัพธ์ที่ประสบความสำเร็จในขณะที่ละเว้นข้อมูลสำคัญเกี่ยวกับค่าใช้จ่ายการคำนวณและอัตราความล้มเหลว
ตัวอย่างเช่น หากระบบ AI มีต้นทุนทรัพยากรการคำนวณ 1,000 ดอลลาร์สหรัฐ ต่อการพยายาม แต่ประสบความสำเร็จเพียง 20% เท่านั้น ต้นทุนจริงต่อการแก้ปัญหาที่สำเร็จจะเพิ่มขึ้นเป็น 5,000 ดอลลาร์สหรัฐ ความแตกต่างอย่างมากในเศรษฐศาสตร์โลกแห่งความจริงนี้ไม่ค่อยถูกเปิดเผยในการประกาศสาธารณะ ทำให้เกิดความคาดหวังที่ไม่สมจริงเกี่ยวกับต้นทุนการใช้งาน AI
สถานการณ์จะซับซ้อนยิ่งขึ้นเมื่อพิจารณาการดูแลของมนุษย์ที่จำเป็นระหว่างการดำเนินงานของ AI แม้ว่าผู้เชี่ยวชาญด้านมนุษย์จะไม่แทรกแซงโดยตรง การปรากฏตัวและการติดตามของพวกเขาก็แสดงถึงต้นทุนเพิ่มเติมที่ควรนำมาพิจารณาในตัวชี้วัดประสิทธิภาพที่แท้จริง
ตัวอย่างการคำนวณต้นทุน:
- ต้นทุนการประมวลผลของระบบ AI ต่อการพยายาม: $1,000 USD
- อัตราความสำเร็จ: 20%
- ต้นทุนจริงต่อการแก้ปัญหาที่สำเร็จ: $5,000 USD
- ต้นทุนที่ซ่อนเร้นเพิ่มเติม: การดูแลของมนุษย์ การตรวจสอบ ความล้มเหลวที่เกี่ยวเนื่องกัน
การเล่นเกมมาตรฐานการประเมินคุกคามความก้าวหน้าทางวิทยาศาสตร์
แรงกดดันในการบรรลุคะแนนมาตรฐานการประเมินสูงได้สร้างสภาพแวดล้อมที่การปรับให้เหมาะสมสำหรับการทดสอบเฉพาะอาจมาแลกกับความสามารถทั่วไป ปรากฏการณ์นี้เกี่ยวข้องกับ Goodhart's Law ซึ่งชี้ให้เห็นว่าเมื่อตัวชี้วัดกลายเป็นเป้าหมาย มันจะหยุดเป็นตัวชี้วัดที่ดี
ปัญหาของมาตรฐานการประเมินคือมันมีประโยชน์มากสำหรับนักวิจัยที่ซื่อสัตย์ แต่เป็นพิษอย่างมากหากใช้เพื่อการตลาด การอวดอ้าง ฯลฯ
ความท้าทายนี้รุนแรงเป็นพิเศษเพราะมาตรฐานการประเมินสาธารณะส่วนใหญ่น่าจะรวมอยู่ในชุดข้อมูลการฝึกแล้วผ่านการรวบรวมข้อมูลเว็บ ทำให้เกือบเป็นไปไม่ได้ที่จะสร้างการประเมินที่ไม่ปนเปื้อนอย่างแท้จริง สิ่งนี้ทำให้นักวิจัยบางคนสนับสนุนมาตรฐานการประเมินส่วนตัวที่ไม่เผยแพร่ แม้ว่าจะมีข้อจำกัดและอคติของตัวเอง
แนวทางแก้ไขที่เสนอ:
- การประเมินมาตรฐานแบบส่วนตัวที่ไม่เผยแพร่สู่สาธารณะ
- การเปิดเผยค่าใช้จ่ายในการคำนวณและอัตราความล้มเหลวอย่างบังคับ
- โปรโตคอลการรายงานแบบมาตรฐานสำหรับความสำเร็จของ AI
- มุ่งเน้นไปที่ตัวชี้วัดประสิทธิภาพในโลกแห่งความเป็นจริงมากกว่ามาตรฐานที่จำกัด
ก้าวไปสู่มาตรฐานการประเมินที่โปร่งใส
เมื่อเทคโนโลยี AI เติบโตขึ้น ชุมชนตระหนักถึงความจำเป็นในการมีโปรโตคอลการประเมินที่เป็นมาตรฐาน ซึ่งต้องการการเปิดเผยวิธีการและการใช้ทรัพยากรอย่างครบถ้วน การเปลี่ยนแปลงนี้สะท้อนวิวัฒนาการที่เห็นในเทคโนโลยีอื่นๆ ที่การมุ่งเน้นในช่วงแรกเกี่ยวกับความสำเร็จที่ก้าวล้ำในที่สุดก็หันไปสู่การพิจารณาเชิงปฏิบัติของต้นทุน ประสิทธิภาพ และความน่าเชื่อถือ
เส้นทางไปข้างหน้าน่าจะเกี่ยวข้องกับแนวทางผสมผสาน: การประเมินส่วนตัวที่ออกแบบอย่างระมัดระวัง ข้อกำหนดการรายงานที่เป็นมาตรฐานสำหรับต้นทุนการคำนวณ และการเน้นประสิทธิภาพในโลกแห่งความจริงมากกว่าการปรับให้เหมาะสมกับมาตรฐานการประเมินแคบๆ เฉพาะผ่านการปฏิรูปที่ครอบคลุมเช่นนี้เท่านั้นที่ชุมชน AI จะสามารถฟื้นฟูความเชื่อมั่นในการอ้างสิทธิ์ประสิทธิภาพและเปิดใช้งานการตัดสินใจที่มีข้อมูลเกี่ยวกับการใช้งาน AI
อ้างอิง: Mastodon post