Reddit บล็อก Wayback Machine ของ Internet Archive เพื่อป้องกันการขูดข้อมูลโดย AI ส่งผลให้การเข้าถึงเนื้อหาในอดีตถูกจำกัด

ทีมบรรณาธิการ BigGo
Reddit บล็อก Wayback Machine ของ Internet Archive เพื่อป้องกันการขูดข้อมูลโดย AI ส่งผลให้การเข้าถึงเนื้อหาในอดีตถูกจำกัด

การอนุรักษ์ประวัติศาสตร์อินเทอร์เน็ตเผชิญกับอุปสรรคสำคัญ เมื่อ Reddit ใช้ข้อจำกัดใหม่ที่จะจำกัดความสามารถของ Internet Archive ในการจับภาพและจัดเก็บเนื้อหาของแพลตฟอร์มอย่างรุนแรง การเคลื่อนไหวครั้งนี้แสดงให้เห็นถึงความตึงเครียดที่เพิ่มขึ้นระหว่างแพลตฟอร์มเนื้อหาที่พยายามสร้างรายได้จากข้อมูลของตน กับภารกิจที่กว้างขวางในการอนุรักษ์ข้อมูลดิจิทัลสำหรับคนรุ่นหลัง

โลโก้ของ Reddit บนสมาร์ทโฟนเป็นสัญลักษณ์ของข้อจำกัดใหม่ของแพลตฟอร์มในการเก็บถาวรเนื้อหา
โลโก้ของ Reddit บนสมาร์ทโฟนเป็นสัญลักษณ์ของข้อจำกัดใหม่ของแพลตฟอร์มในการเก็บถาวรเนื้อหา

การควบคุมเนื้อหาเชิงกลยุทธ์ของ Reddit

Reddit ได้ประกาศว่าจะบล็อก Wayback Machine จากการจัดทำดัชนีเนื้อหาส่วนใหญ่ของแพลตฟอร์ม โดยอนุญาตให้เข้าถึงได้เพียงหน้าแรกของแพลตฟอร์มเท่านั้น การตัดสินใจนี้ทำให้ภาพรวมในอดีตของ subreddit และโพสต์แต่ละรายการของ Internet Archive ไม่สามารถเข้าถึงได้สำหรับการเก็บถาวรในอนาคต ข้อจำกัดนี้เกิดจากความกังวลของ Reddit ที่บริษัท AI กำลังหลีกเลี่ยงนโยบายการเข้าถึงเนื้อหาของแพลตฟอร์มโดยการขูดข้อมูลจากเวอร์ชันที่เก็บถาวรใน Wayback Machine

ตามที่ Tim Rathschmidt โฆษกของ Reddit กล่าว บริษัทได้ระบุกรณีที่บริษัท AI ละเมิดนโยบายของแพลตฟอร์มโดยการดึงข้อมูลสำหรับการฝึกจากภาพที่จับโดย Internet Archive ข้อจำกัดใหม่เริ่มเพิ่มขึ้นเมื่อเร็วๆ นี้ แม้ว่าเนื้อหาที่เก็บถาวรไว้แล้วจะยังคงเข้าถึงได้ในขณะนี้

การเปลี่ยนแปลงการเข้าถึง Internet Archive

  • ก่อนหน้า: เข้าถึงโพสต์ Reddit , subreddit และหน้าแรกได้อย่างเต็มรูปแบบ
  • หลังจากนั้น: การเข้าถึงถูกจำกัดเฉพาะหน้าแรก Reddit เท่านั้น
  • ไฟล์เก็บถาวรที่มีอยู่: ปัจจุบันยังคงสามารถเข้าถึงได้

ปัจจัยการสร้างรายได้จาก AI

ช่วงเวลาของการตัดสินใจนี้เผยให้เห็นกลยุทธ์ที่กว้างขวางของ Reddit เกี่ยวกับการเป็นพันธมิตรกับ AI และการให้สิทธิ์ใช้เนื้อหา แพลตฟอร์มได้ทำข้อตกลงที่ร่ำรวยกับบริษัท AI ชั้นนำแล้ว รวมถึงข้อตกลงกับ Google ในปี 2024 และการเป็นพันธมิตรกับ OpenAI ในเวลาต่อมา ข้อตกลงเหล่านี้อนุญาตให้ยักษ์ใหญ่ด้านเทคโนโลยีเข้าถึงคลังข้อมูลขนาดใหญ่ของเนื้อหาที่สร้างโดยผู้ใช้ของ Reddit อย่างถูกกฎหมายเพื่อฝึกโมเดลปัญญาประดิษฐ์ของพวกเขา

แนวทางนี้ชี้ให้เห็นว่าความกังวลหลักของ Reddit ไม่ใช่การป้องกันการฝึก AI ทั้งหมด แต่เป็นการรับประกันว่าจะได้รับค่าตอบแทนสำหรับการเข้าถึงดังกล่าว บริษัทดูเหมือนจะปิดช่องโหว่ที่อาจทำให้นักพัฒนา AI รายอื่นได้รับเนื้อหาของ Reddit โดยไม่ต้องจ่ายค่าธรรมเนียมใบอนุญาต

ไทม์ไลน์ความร่วมมือด้าน AI ของ Reddit

  • 2024: ข้อตกลงการให้สิทธิ์เนื้อหากับ Google
  • ปลาย 2024: ข้อตกลงความร่วมมือกับ OpenAI
  • 2025: การนำข้อจำกัดของ Wayback Machine มาใช้

ผลกระทบต่อการอนุรักษ์ดิจิทัล

Internet Archive ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่อุทิศตนเพื่อการอนุรักษ์ข้อมูลดิจิทัล ให้บริการที่มีคุณค่าอย่างยิ่งผ่าน Wayback Machine เครื่องมือนี้ได้อนุญาตให้นักวิจัย นักข่าว และผู้ใช้ที่สนใจเข้าถึงเว็บไซต์และเนื้อหาที่อาจสูญหายไปตามกาลเวลา ข้อจำกัดของ Reddit แสดงถึงการโจมตีที่สำคัญต่อภารกิจนี้ เมื่อพิจารณาถึงบทบาทของแพลตฟอร์มในฐานะคลังข้อมูลขนาดใหญ่ของการสนทนา บทวิจารณ์ และความรู้ของชุมชน

การสูญเสียนี้มีความโดดเด่นเป็นพิเศษสำหรับผู้ใช้ที่พึ่งพา Reddit สำหรับข้อมูลที่แท้จริงและสร้างโดยมนุษย์ ผู้ใช้อินเทอร์เน็ตจำนวนมากได้พัฒนานิสัยในการเพิ่ม Reddit ต่อท้ายคำค้นหาเพื่อหาความคิดเห็นและประสบการณ์ที่แท้จริง ทำให้เนื้อหา Reddit ที่เก็บถาวรเป็นทรัพยากรที่มีค่าสำหรับการเข้าถึงโพสต์ที่ถูกลบหรือแก้ไข

การเจรจาที่กำลังดำเนินอยู่

แม้จะมีข้อจำกัดในปัจจุบัน แต่อาจมีความหวังสำหรับการแก้ไข Mark Graham ผู้อำนวยการของ Wayback Machine ระบุว่า Internet Archive รักษาความสัมพันธ์ที่ยาวนานกับ Reddit และยังคงสนทนาเกี่ยวกับเรื่องนี้ต่อไป สิ่งนี้ชี้ให้เห็นถึงความเป็นไปได้ในการหาจุดกึ่งกลางที่สามารถรักษาการเข้าถึงการเก็บถาวรบางส่วนไว้ในขณะที่แก้ไขความกังวลของ Reddit เกี่ยวกับการขูดข้อมูลโดย AI ที่ไม่ได้รับอนุญาต

สถานการณ์นี้เน้นย้ำถึงความท้าทายที่ซับซ้อนที่การอนุรักษ์ดิจิทัลเผชิญในยุคที่แพลตฟอร์มเนื้อหามองข้อมูลที่สร้างโดยผู้ใช้เป็นสินทรัพย์ทางการค้าที่มีค่ามากขึ้น เมื่อบริษัท AI ยังคงแสวงหาข้อมูลสำหรับการฝึก ความขัดแย้งที่คล้ายกันระหว่างความพยายามในการอนุรักษ์และผลประโยชน์ทางการค้าอาจกลายเป็นเรื่องธรรมดามากขึ้นทั่วอินเทอร์เน็ต