Reddit บล็อก Internet Archive เพื่อปกป้องรายได้จากการให้สิทธิ์ข้อมูล AI

ทีมชุมชน BigGo
Reddit บล็อก Internet Archive เพื่อปกป้องรายได้จากการให้สิทธิ์ข้อมูล AI

Reddit ได้ประกาศว่าจะบล็อก Wayback Machine ของ Internet Archive จากการจัดทำดัชนีเนื้อหาส่วนใหญ่ โดยอ้างถึงความกังวลเกี่ยวกับบริษัท AI ที่เก็บข้อมูลผ่านบริการเก็บถาวรนี้ การเคลื่อนไหวครั้งนี้เป็นอีกก้าวหนึ่งในกลยุทธ์ที่กว้างขึ้นของ Reddit ในการสร้างรายได้จากเนื้อหาที่ผู้ใช้สร้างขึ้นในยุค AI

แพลตฟอร์มจะอนุญาตให้ Internet Archive เก็บเฉพาะหน้าแรกเท่านั้น ซึ่งจะป้องกันการเก็บรักษาโพสต์แต่ละรายการ ความคิดเห็น และโปรไฟล์ผู้ใช้ Reddit อ้างว่าการดำเนินการนี้จำเป็นเพราะบริษัท AI ได้ละเมิดนโยบายของแพลตฟอร์มโดยการเก็บข้อมูล Reddit ที่เก็บถาวรจาก Wayback Machine

ข้อจำกัดการเข้าถึง Internet Archive:

  • เนื้อหาที่ถูกบล็อก: หน้ารายละเอียดโพสต์ ความคิดเห็น โปรไฟล์ผู้ใช้
  • เนื้อหาที่อนุญาต: หน้าแรกของ Reddit.com เท่านั้น
  • การดำเนินการ: เปิดใช้งานแบบค่อยเป็นค่อยไปตั้งแต่เดือนสิงหาคม 2024
  • วิธีการทางเทคนิค: การบล็อกแบบ IP-based ของบริการคลาวด์ ( AWS , GCP , Hetzner )
  • ผลกระทบ: จำกัดการเก็บรักษาประวัติศาสตร์ของการสนทนาใน Reddit อย่างรุนแรง

การเก็บรักษาดิจิทัลอยู่ภายใต้ภัยคุกคาม

การตอบสนองของชุมชนเน้นย้ำถึงความกังวลที่เพิ่มขึ้นเกี่ยวกับความเปราะบางของประวัติศาสตร์ดิจิทัล ผู้ใช้หลายคนกังวลว่าการรีบสร้างรายได้จากข้อมูลฝึก AI กำลังสร้างช่องว่างที่สำคัญในการเก็บรักษาวัฒนธรรมและข้อมูลออนไลน์ ความขัดแย้งนี้โดดเด่น - ในขณะที่ผู้สนับสนุนดิจิทัลยุคแรกเชื่อว่ารูปแบบอิเล็กทรอนิกส์จะรับประกันการเก็บรักษาที่สมบูรณ์แบบตลอดไป แต่แนวโน้มปัจจุบันชี้ให้เห็นว่าเราอาจมีบันทึกประวัติศาสตร์ของช่วงปี 1800 ที่ดีกว่าช่วงปี 2020

สมาชิกชุมชนบางคนได้ลงมือดำเนินการเอง โดยสร้างขบวนการเก็บถาวรระดับรากหญ้าเพื่อเก็บรักษาเนื้อหาก่อนที่จะหายไป ความพยายามเหล่านี้มักเกิดขึ้นหลังจากที่ผู้คนเห็นข้อมูลที่มีค่าหายไปเมื่อผู้สร้างลบบัญชีของตนหรือแพลตฟอร์มเปลี่ยนนโยบาย

การแย่งชิงข้อมูล AI สร้างปัญหาใหม่

การตัดสินใจของ Reddit สะท้อนถึงเศรษฐศาสตร์ที่ซับซ้อนของข้อมูลฝึก AI แพลตฟอร์มได้ทำข้อตกลงการให้สิทธิ์ที่ทำกำไรได้กับบริษัทอย่าง Google และ OpenAI แต่ยังคงเผชิญกับความท้าทายที่ต่อเนื่องจากการเก็บข้อมูลโดยไม่ได้รับอนุญาต สิ่งนี้สร้างระบบสองชั้นที่บริษัทที่จ่ายเงินได้รับการเข้าถึง ในขณะที่บริการเก็บถาวรฟรีถูกบล็อก

ชุมชนตั้งคำถามสำคัญเกี่ยวกับคุณภาพข้อมูลในการฝึก AI Reddit มีส่วนผสมของข้อมูลคุณภาพสูงที่คัดสรรโดยมนุษย์ควบคู่ไปกับข้อมูลที่ผิด การโทรลลิ่ง และเนื้อหาที่ล้าสมัย การฝึกระบบ AI ด้วยคลังข้อมูl ที่หลากหลายนี้โดยไม่มีการกรองที่เหมาะสมอาจนำไปสู่โมเดล AI ที่นำเสนอข้อมูลที่ไม่ถูกต้องอย่างมั่นใจเสมือนเป็นความจริง

มันตลก/น่าสนใจ/น่ากลัวสำหรับฉันที่นักพัฒนาเปลี่ยนจากคำขวัญที่เกือบจะเป็นศาสนาของ 'Garbage In, Garbage Out' เมื่อฉันเรียนคอมพิวเตอร์ - มาเป็นการฝึก AI ที่ควรจะฉลาดเหนือธรรมชาติของเราด้วยโพสต์ reddit หรือแม้แต่สิ่งที่แย่กว่านั้น

กลยุทธ์การให้ลิขสิทธิ์ AI ของ Reddit:

  • ลงนามข้อตกลงการให้ลิขสิทธิ์ข้อมูลกับ Google สำหรับการค้นหาและการฝึกอบรม AI
  • สร้างความร่วมมือกับ OpenAI เพื่อการพัฒนา AI
  • ฟ้อง Anthropic ในเดือนมิถุนายน 2024 ข้อหาการเก็บข้อมูลอย่างต่อเนื่องโดยไม่ได้รับอนุญาต
  • บล็อกเครื่องมือค้นหาหลักจากการเก็บข้อมูลเว็บไซต์ เว้นแต่จะจ่ายเงิน
  • ดำเนินการเปลี่ยนแปลง API ในปี 2023 ที่บังคับให้แอปพลิเคชันของบุคคลที่สามต้องปิดตัวลง
ภูมิทัศน์การแข่งขันของข้อมูลการฝึกอบรม AI และผลประโยชน์ขององค์กรที่เน้นย้ำโดยความก้าวหน้าทางเทคโนโลยี
ภูมิทัศน์การแข่งขันของข้อมูลการฝึกอบรม AI และผลประโยชน์ขององค์กรที่เน้นย้ำโดยความก้าวหน้าทางเทคโนโลยี

วิธีแก้ปัญหาทางเทคนิคและความท้าทายในการบังคับใช้

แม้ Reddit จะพยายามควบคุมการเข้าถึง การดำเนินการทางเทคนิคก็เผชิญกับความท้าทายที่สำคัญ แพลตฟอร์มบล็อก IP ของบริการคลาวด์หลายแห่งแล้ว ซึ่งส่งผลกระทบต่อนักวิจัยและนักเก็บถาวรที่ถูกต้องตามกฎหมายควบคู่ไปกับผู้เก็บข้อมูล AI ในขณะเดียวกัน เว็บไซต์เก็บถาวรเฉพาะบางแห่งยังคงดำเนินการได้สำเร็จ ซึ่งชี้ให้เห็นว่าผู้ที่มุ่งมั่นยังสามารถเข้าถึงข้อมูล Reddit ผ่านวิธีการต่างๆ ได้

แนวทางการบังคับใช้เผยให้เห็นความสามารถทางเทคนิคที่จำกัดของ Reddit ในด้านนี้ แทนที่จะใช้การจำกัดอัตราที่ซับซ้อนหรือการควบคุมการเข้าถึง แพลตฟอร์มพึ่งพาการบล็อก IP อย่างกว้างๆ และการขู่ทางกฎหมายเพื่อจัดการการเข้าถึงโดยไม่ได้รับอนุญาต

การตอบสนองของอุตสาหกรรมเทคโนโลยีต่อความท้าทายในการจัดการข้อมูลและการควบคุมการเข้าถึงที่แสดงโดย GitHub
การตอบสนองของอุตสาหกรรมเทคโนโลยีต่อความท้าทายในการจัดการข้อมูลและการควบคุมการเข้าถึงที่แสดงโดย GitHub

ผลกระทบที่กว้างขึ้นต่อการเข้าถึงเว็บแบบเปิด

การพัฒนานี้เข้ากับรูปแบบที่ใหญ่กว่าของแพลตฟอร์มที่จำกัดการเข้าถึงข้อมูลในขณะที่บริษัท AI แสวงหาวัสดุฝึก การอภิปรายของชุมชนเผยให้เห็นความกังวลว่าแนวโน้มนี้อาจเปลี่ยนแปลงการไหลของข้อมูลบนอินเทอร์เน็ตอย่างพื้นฐาน ซึ่งอาจสร้างสภาพแวดล้อมเว็บที่ปิดและเชิงพาณิชย์มากขึ้น

สถานการณ์นี้ยังตั้งคำถามเกี่ยวกับว่าใครเป็นเจ้าของและควบคุมเนื้อหาที่ผู้ใช้สร้างขึ้น Reddit กำลังขายเนื้อหาที่ผู้ใช้สร้างขึ้นให้กับบริษัท AI ในขณะเดียวกันก็ป้องกันบริการเก็บถาวรฟรีจากการเก็บรักษาเนื้อหาเดียวกันนั้นเพื่อวัตถุประสงค์ทางประวัติศาสตร์

เมื่อการเฟื่องฟู AI ยังคงดำเนินต่อไป ความตึงเครียดระหว่างการให้สิทธิ์ข้อมูลเชิงพาณิชย์และการเข้าถึงข้อมูลแบบเปิดน่าจะทวีความรุนแรงขึ้น โดยมีความพยายามในการเก็บรักษาดิจิทัลติดอยู่ตรงกลาง

อ้างอิง: Reddit will block the internet Archive