ข้อเสนอล่าสุดที่จะปลดล็อกข้อมูลเพิ่มขึ้นหลายล้านเท่าสำหรับการฝึก AI ผ่าน Attribution-Based Control (ABC) ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี ข้อเสนอดังกล่าวชี้ให้เห็นว่าโมเดล AI ปัจจุบันมีข้อจำกัดด้านข้อมูลอย่างรุนแรง โดยใช้เพียงหลายร้อย terabytes ในขณะที่โลกมีข้อมูลดิจิทัลที่ยังไม่ได้ใช้ประโยชน์ถึง 500,000 exabytes
ขนาดข้อมูลการฝึกอบรม AI ปัจจุบันเทียบกับข้อมูลทั่วโลก
- โมเดล AI ชั้นนำใช้ข้อมูลการฝึกอบรม 2-180 TB
- ข้อมูลดิจิทัลทั่วโลก: ประมาณ 500,000 เอกซะไบต์ (500,000,000,000 TB)
- อัตราส่วน: ข้อมูลส่วนตัวมีขนาดใหญ่กว่าชุดข้อมูลการฝึกอบรมปัจจุบันประมาณ 1 ล้านเท่า
ความเป็นไปได้ทางเทคนิคถูกวิพากษ์วิจารณ์
ชุมชนได้แสดงความกังวลอย่างจริงจังเกี่ยวกับรากฐานทางเทคนิคของข้อเสนอ ABC นักวิจารณ์ชี้ให้เห็นว่า homomorphic encryption ซึ่งเป็นองค์ประกอบสำคัญของโครงสร้างพื้นฐานที่รักษาความเป็นส่วนตัวที่เสนอมา สร้างภาระการคำนวณขนาดใหญ่ที่ทำให้ไม่สามารถใช้งานได้จริงสำหรับการดำเนินงาน machine learning ขนาดใหญ่ แม้ว่าผู้เขียนจะอ้างว่าผลกระทบต่อประสิทธิภาพเทียบเท่ากับการเข้ารหัส HTTPS แต่นักพัฒนาที่มีประสบการณ์ยังคงสงสัยเกี่ยวกับการนำระบบดังกล่าวมาใช้กับสถาปัตยกรรม GPU ปัจจุบัน
Homomorphic encryption: วิธีการเข้ารหัสที่อนุญาตให้คำนวณข้อมูลที่เข้ารหัสโดยไม่ต้องถอดรหัสก่อน แต่มีต้นทุนการคำนวณที่สูงมาก
การถกเถียงเรื่องคุณภาพข้อมูลเทียบกับปริมาณ
ประเด็นการโต้เถียงหลักมุ่งเน้นไปที่ว่าข้อมูลมากขึ้นจะนำไปสู่โมเดล AI ที่ดีขึ้นโดยอัตโนมัติหรือไม่ สมาชิกในชุมชนโต้แย้งว่าข้อเสนอดังกล่าวปฏิบัติต่อข้อมูลทั้งหมดเสมือนมีคุณค่าเท่าเทียมกัน ในขณะที่ความจริงแล้วชุดข้อมูลส่วนตัวส่วนใหญ่จะให้ประโยชน์เพียงเล็กน้อยต่อการฝึกโมเดลภาษา ข้อมูลจากเซ็นเซอร์วัดอุณหภูมิ ไฟล์ที่ซ้ำกัน และรายการฐานข้อมูลที่มีโครงสร้างอาจแสดงปริมาณขนาดใหญ่ แต่ให้คุณค่าการฝึกที่น้อยมาก
เราไม่ต้องการ 'ข้อมูลมากขึ้น' เราต้องการ 'ข้อมูลประเภทเฉพาะที่เรากำลังฝึกมากขึ้น' ซึ่งไม่ค่อยมีให้ใช้งานง่ายๆ
การอภิปรายเผยให้เห็นความขัดแย้งพื้นฐานเกี่ยวกับกฎการขยายขนาดในการพัฒนา AI โดยบางคนโต้แย้งว่าความก้าวหน้าปัจจุบันมาจากเทคนิคที่ปรับปรุงแล้ว เช่น การใช้เหตุผลและ reinforcement learning มากกว่าการเพิ่มข้อมูลการฝึกเพียงอย่างเดียว
การเปรียบเทียบข้อมูลการฝึกโมเดล AI หลัก
บริษัท | โมเดล | ขนาดข้อมูลการฝึก |
---|---|---|
Meta | Llama-3 | 75 TB |
OpenAI | GPT-4 | 13 TB |
Gemini-Ultra | 15 TB | |
Amazon | Titan | 24 TB |
DeepSeek | DeepSeek LLM | 2 TB |
ความกังวลด้านความเป็นส่วนตัวและความไว้วางใจ
การวิพากษ์วิจารณ์ที่แรงที่สุดอาจมุ่งเน้นไปที่ผลกระทบต่อความเป็นส่วนตัวและความน่าเชื่อถือของบริษัท สมาชิกในชุมชนแสดงความสงสัยอย่างลึกซึ้งเกี่ยวกับการให้บริษัท AI เข้าถึงบันทึกทางการแพทย์ ธุรกรรมทางการเงิน และข้อมูลส่วนตัวที่ละเอียดอ่อนอื่นๆ แม้จะมีการป้องกันความเป็นส่วนตัวที่เสนอไว้ ประวัติการจัดการข้อมูลของบริษัทเทคโนโลยีใหญ่ๆ ทำให้หลายคนไม่เชื่อมั่นว่าโซลูชันทางเทคนิคใดๆ สามารถปกป้องสิทธิความเป็นส่วนตัวของบุคคลได้อย่างเพียงพอ
นักวิจารณ์ยังตั้งคำถามเกี่ยวกับแรงจูงใจทางเศรษฐกิจ โดยสังเกตว่าบริษัทเดียวกันที่ปัจจุบันหลีกเลี่ยงการจ่ายเงินสำหรับข้อมูลการฝึกที่มีอยู่ ไม่น่าจะให้ค่าตอบแทนที่ยุติธรรมแก่เจ้าของข้อมูลภายใต้ระบบใหม่ใดๆ โดยไม่คำนึงถึงกลไกการบังคับใช้ทางเทคนิค
ข้อกำหนดหลักของ Attribution-Based Control (ABC)
- เจ้าของข้อมูลต้องสามารถควบคุมได้ว่าข้อมูลของตนสนับสนุนการทำนายของ AI แบบใด
- เจ้าของข้อมูลต้องสามารถควบคุมได้ว่าข้อมูลของตนมีอิทธิพลต่อข้อสรุปของ AI อย่างไร
- ระบบต้องเปิดโอกาสให้สามารถสร้างรายได้อย่างต่อเนื่องจากการใช้ข้อมูล
- การนำไปใช้ในทางเทคนิคต้องมีการแบ่งส่วนโมเดลและโครงสร้างพื้นฐานด้านความเป็นส่วนตัว
การมีส่วนร่วมของรัฐบาลทำให้เกิดสัญญาณเตือนภัย
คำแนะนำของข้อเสนอสำหรับโปรแกรมที่นำโดยรัฐบาลในรูปแบบ ARPANET เพื่อพัฒนาระบบ ABC ได้รับการตรวจสอบอย่างพิเศษ สมาชิกในชุมชนกังวลเกี่ยวกับผลกระทบของหน่วยงานรัฐบาลที่ประสานงานการเข้าถึงข้อมูลส่วนตัวจำนวนมหาศาล แม้จะมีการอ้างว่ามีการป้องกันความเป็นส่วนตัว การเปรียบเทียบกับการพัฒนาโครงสร้างพื้นฐานอินเทอร์เน็ตทำให้หลายคนรู้สึกว่าไม่เหมาะสม เนื่องจากลักษณะที่ละเอียดอ่อนของข้อมูลที่เกี่ยวข้อง
การถกเถียงนี้เน้นย้ำถึงความตึงเครียดที่กว้างขึ้นในการพัฒนา AI ระหว่างความปรารถนาสำหรับระบบที่มีความสามารถมากขึ้นและความจำเป็นในการปกป้องความเป็นส่วนตัวและสิทธิข้อมูลของบุคคล ในขณะที่ชุมชนเทคนิคยังคงสร้างนวัตกรรมในเทคโนโลยีที่รักษาความเป็นส่วนตัว ความท้าทายเชิงปฏิบัติและจริยธรรมในการนำระบบดังกล่าวมาใช้ในระดับใหญ่ยังคงเป็นอุปสรรคที่น่าเกรงขาม