ชุมชนเทคโนโลยีท้าทายข้อเสนอ "การควบคุมแบบอิงการระบุแหล่งที่มา" สำหรับการเข้าถึงข้อมูลส่วนตัวในการฝึก AI

ทีมชุมชน BigGo
ชุมชนเทคโนโลยีท้าทายข้อเสนอ "การควบคุมแบบอิงการระบุแหล่งที่มา" สำหรับการเข้าถึงข้อมูลส่วนตัวในการฝึก AI

ข้อเสนอล่าสุดที่จะปลดล็อกข้อมูลเพิ่มขึ้นหลายล้านเท่าสำหรับการฝึก AI ผ่าน Attribution-Based Control (ABC) ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี ข้อเสนอดังกล่าวชี้ให้เห็นว่าโมเดล AI ปัจจุบันมีข้อจำกัดด้านข้อมูลอย่างรุนแรง โดยใช้เพียงหลายร้อย terabytes ในขณะที่โลกมีข้อมูลดิจิทัลที่ยังไม่ได้ใช้ประโยชน์ถึง 500,000 exabytes

ขนาดข้อมูลการฝึกอบรม AI ปัจจุบันเทียบกับข้อมูลทั่วโลก

  • โมเดล AI ชั้นนำใช้ข้อมูลการฝึกอบรม 2-180 TB
  • ข้อมูลดิจิทัลทั่วโลก: ประมาณ 500,000 เอกซะไบต์ (500,000,000,000 TB)
  • อัตราส่วน: ข้อมูลส่วนตัวมีขนาดใหญ่กว่าชุดข้อมูลการฝึกอบรมปัจจุบันประมาณ 1 ล้านเท่า

ความเป็นไปได้ทางเทคนิคถูกวิพากษ์วิจารณ์

ชุมชนได้แสดงความกังวลอย่างจริงจังเกี่ยวกับรากฐานทางเทคนิคของข้อเสนอ ABC นักวิจารณ์ชี้ให้เห็นว่า homomorphic encryption ซึ่งเป็นองค์ประกอบสำคัญของโครงสร้างพื้นฐานที่รักษาความเป็นส่วนตัวที่เสนอมา สร้างภาระการคำนวณขนาดใหญ่ที่ทำให้ไม่สามารถใช้งานได้จริงสำหรับการดำเนินงาน machine learning ขนาดใหญ่ แม้ว่าผู้เขียนจะอ้างว่าผลกระทบต่อประสิทธิภาพเทียบเท่ากับการเข้ารหัส HTTPS แต่นักพัฒนาที่มีประสบการณ์ยังคงสงสัยเกี่ยวกับการนำระบบดังกล่าวมาใช้กับสถาปัตยกรรม GPU ปัจจุบัน

Homomorphic encryption: วิธีการเข้ารหัสที่อนุญาตให้คำนวณข้อมูลที่เข้ารหัสโดยไม่ต้องถอดรหัสก่อน แต่มีต้นทุนการคำนวณที่สูงมาก

การถกเถียงเรื่องคุณภาพข้อมูลเทียบกับปริมาณ

ประเด็นการโต้เถียงหลักมุ่งเน้นไปที่ว่าข้อมูลมากขึ้นจะนำไปสู่โมเดล AI ที่ดีขึ้นโดยอัตโนมัติหรือไม่ สมาชิกในชุมชนโต้แย้งว่าข้อเสนอดังกล่าวปฏิบัติต่อข้อมูลทั้งหมดเสมือนมีคุณค่าเท่าเทียมกัน ในขณะที่ความจริงแล้วชุดข้อมูลส่วนตัวส่วนใหญ่จะให้ประโยชน์เพียงเล็กน้อยต่อการฝึกโมเดลภาษา ข้อมูลจากเซ็นเซอร์วัดอุณหภูมิ ไฟล์ที่ซ้ำกัน และรายการฐานข้อมูลที่มีโครงสร้างอาจแสดงปริมาณขนาดใหญ่ แต่ให้คุณค่าการฝึกที่น้อยมาก

เราไม่ต้องการ 'ข้อมูลมากขึ้น' เราต้องการ 'ข้อมูลประเภทเฉพาะที่เรากำลังฝึกมากขึ้น' ซึ่งไม่ค่อยมีให้ใช้งานง่ายๆ

การอภิปรายเผยให้เห็นความขัดแย้งพื้นฐานเกี่ยวกับกฎการขยายขนาดในการพัฒนา AI โดยบางคนโต้แย้งว่าความก้าวหน้าปัจจุบันมาจากเทคนิคที่ปรับปรุงแล้ว เช่น การใช้เหตุผลและ reinforcement learning มากกว่าการเพิ่มข้อมูลการฝึกเพียงอย่างเดียว

การเปรียบเทียบข้อมูลการฝึกโมเดล AI หลัก

บริษัท โมเดล ขนาดข้อมูลการฝึก
Meta Llama-3 75 TB
OpenAI GPT-4 13 TB
Google Gemini-Ultra 15 TB
Amazon Titan 24 TB
DeepSeek DeepSeek LLM 2 TB

ความกังวลด้านความเป็นส่วนตัวและความไว้วางใจ

การวิพากษ์วิจารณ์ที่แรงที่สุดอาจมุ่งเน้นไปที่ผลกระทบต่อความเป็นส่วนตัวและความน่าเชื่อถือของบริษัท สมาชิกในชุมชนแสดงความสงสัยอย่างลึกซึ้งเกี่ยวกับการให้บริษัท AI เข้าถึงบันทึกทางการแพทย์ ธุรกรรมทางการเงิน และข้อมูลส่วนตัวที่ละเอียดอ่อนอื่นๆ แม้จะมีการป้องกันความเป็นส่วนตัวที่เสนอไว้ ประวัติการจัดการข้อมูลของบริษัทเทคโนโลยีใหญ่ๆ ทำให้หลายคนไม่เชื่อมั่นว่าโซลูชันทางเทคนิคใดๆ สามารถปกป้องสิทธิความเป็นส่วนตัวของบุคคลได้อย่างเพียงพอ

นักวิจารณ์ยังตั้งคำถามเกี่ยวกับแรงจูงใจทางเศรษฐกิจ โดยสังเกตว่าบริษัทเดียวกันที่ปัจจุบันหลีกเลี่ยงการจ่ายเงินสำหรับข้อมูลการฝึกที่มีอยู่ ไม่น่าจะให้ค่าตอบแทนที่ยุติธรรมแก่เจ้าของข้อมูลภายใต้ระบบใหม่ใดๆ โดยไม่คำนึงถึงกลไกการบังคับใช้ทางเทคนิค

ข้อกำหนดหลักของ Attribution-Based Control (ABC)

  1. เจ้าของข้อมูลต้องสามารถควบคุมได้ว่าข้อมูลของตนสนับสนุนการทำนายของ AI แบบใด
  2. เจ้าของข้อมูลต้องสามารถควบคุมได้ว่าข้อมูลของตนมีอิทธิพลต่อข้อสรุปของ AI อย่างไร
  3. ระบบต้องเปิดโอกาสให้สามารถสร้างรายได้อย่างต่อเนื่องจากการใช้ข้อมูล
  4. การนำไปใช้ในทางเทคนิคต้องมีการแบ่งส่วนโมเดลและโครงสร้างพื้นฐานด้านความเป็นส่วนตัว

การมีส่วนร่วมของรัฐบาลทำให้เกิดสัญญาณเตือนภัย

คำแนะนำของข้อเสนอสำหรับโปรแกรมที่นำโดยรัฐบาลในรูปแบบ ARPANET เพื่อพัฒนาระบบ ABC ได้รับการตรวจสอบอย่างพิเศษ สมาชิกในชุมชนกังวลเกี่ยวกับผลกระทบของหน่วยงานรัฐบาลที่ประสานงานการเข้าถึงข้อมูลส่วนตัวจำนวนมหาศาล แม้จะมีการอ้างว่ามีการป้องกันความเป็นส่วนตัว การเปรียบเทียบกับการพัฒนาโครงสร้างพื้นฐานอินเทอร์เน็ตทำให้หลายคนรู้สึกว่าไม่เหมาะสม เนื่องจากลักษณะที่ละเอียดอ่อนของข้อมูลที่เกี่ยวข้อง

การถกเถียงนี้เน้นย้ำถึงความตึงเครียดที่กว้างขึ้นในการพัฒนา AI ระหว่างความปรารถนาสำหรับระบบที่มีความสามารถมากขึ้นและความจำเป็นในการปกป้องความเป็นส่วนตัวและสิทธิข้อมูลของบุคคล ในขณะที่ชุมชนเทคนิคยังคงสร้างนวัตกรรมในเทคโนโลยีที่รักษาความเป็นส่วนตัว ความท้าทายเชิงปฏิบัติและจริยธรรมในการนำระบบดังกล่าวมาใช้ในระดับใหญ่ยังคงเป็นอุปสรรคที่น่าเกรงขาม

อ้างอิง: Unlocking a Million Times More Data for AI