Reddit ได้ประกาศว่าจะบล็อก Wayback Machine ของ Internet Archive จากการจัดทำดัชนีเนื้อหาส่วนใหญ่ โดยอ้างถึงความกังวลเกี่ยวกับบริษัท AI ที่เก็บข้อมูลผ่านบริการเก็บถาวรนี้ การเคลื่อนไหวครั้งนี้เป็นอีกก้าวหนึ่งในกลยุทธ์ที่กว้างขึ้นของ Reddit ในการสร้างรายได้จากเนื้อหาที่ผู้ใช้สร้างขึ้นในยุค AI
แพลตฟอร์มจะอนุญาตให้ Internet Archive เก็บเฉพาะหน้าแรกเท่านั้น ซึ่งจะป้องกันการเก็บรักษาโพสต์แต่ละรายการ ความคิดเห็น และโปรไฟล์ผู้ใช้ Reddit อ้างว่าการดำเนินการนี้จำเป็นเพราะบริษัท AI ได้ละเมิดนโยบายของแพลตฟอร์มโดยการเก็บข้อมูล Reddit ที่เก็บถาวรจาก Wayback Machine
ข้อจำกัดการเข้าถึง Internet Archive:
- เนื้อหาที่ถูกบล็อก: หน้ารายละเอียดโพสต์ ความคิดเห็น โปรไฟล์ผู้ใช้
- เนื้อหาที่อนุญาต: หน้าแรกของ Reddit.com เท่านั้น
- การดำเนินการ: เปิดใช้งานแบบค่อยเป็นค่อยไปตั้งแต่เดือนสิงหาคม 2024
- วิธีการทางเทคนิค: การบล็อกแบบ IP-based ของบริการคลาวด์ ( AWS , GCP , Hetzner )
- ผลกระทบ: จำกัดการเก็บรักษาประวัติศาสตร์ของการสนทนาใน Reddit อย่างรุนแรง
การเก็บรักษาดิจิทัลอยู่ภายใต้ภัยคุกคาม
การตอบสนองของชุมชนเน้นย้ำถึงความกังวลที่เพิ่มขึ้นเกี่ยวกับความเปราะบางของประวัติศาสตร์ดิจิทัล ผู้ใช้หลายคนกังวลว่าการรีบสร้างรายได้จากข้อมูลฝึก AI กำลังสร้างช่องว่างที่สำคัญในการเก็บรักษาวัฒนธรรมและข้อมูลออนไลน์ ความขัดแย้งนี้โดดเด่น - ในขณะที่ผู้สนับสนุนดิจิทัลยุคแรกเชื่อว่ารูปแบบอิเล็กทรอนิกส์จะรับประกันการเก็บรักษาที่สมบูรณ์แบบตลอดไป แต่แนวโน้มปัจจุบันชี้ให้เห็นว่าเราอาจมีบันทึกประวัติศาสตร์ของช่วงปี 1800 ที่ดีกว่าช่วงปี 2020
สมาชิกชุมชนบางคนได้ลงมือดำเนินการเอง โดยสร้างขบวนการเก็บถาวรระดับรากหญ้าเพื่อเก็บรักษาเนื้อหาก่อนที่จะหายไป ความพยายามเหล่านี้มักเกิดขึ้นหลังจากที่ผู้คนเห็นข้อมูลที่มีค่าหายไปเมื่อผู้สร้างลบบัญชีของตนหรือแพลตฟอร์มเปลี่ยนนโยบาย
การแย่งชิงข้อมูล AI สร้างปัญหาใหม่
การตัดสินใจของ Reddit สะท้อนถึงเศรษฐศาสตร์ที่ซับซ้อนของข้อมูลฝึก AI แพลตฟอร์มได้ทำข้อตกลงการให้สิทธิ์ที่ทำกำไรได้กับบริษัทอย่าง Google และ OpenAI แต่ยังคงเผชิญกับความท้าทายที่ต่อเนื่องจากการเก็บข้อมูลโดยไม่ได้รับอนุญาต สิ่งนี้สร้างระบบสองชั้นที่บริษัทที่จ่ายเงินได้รับการเข้าถึง ในขณะที่บริการเก็บถาวรฟรีถูกบล็อก
ชุมชนตั้งคำถามสำคัญเกี่ยวกับคุณภาพข้อมูลในการฝึก AI Reddit มีส่วนผสมของข้อมูลคุณภาพสูงที่คัดสรรโดยมนุษย์ควบคู่ไปกับข้อมูลที่ผิด การโทรลลิ่ง และเนื้อหาที่ล้าสมัย การฝึกระบบ AI ด้วยคลังข้อมูl ที่หลากหลายนี้โดยไม่มีการกรองที่เหมาะสมอาจนำไปสู่โมเดล AI ที่นำเสนอข้อมูลที่ไม่ถูกต้องอย่างมั่นใจเสมือนเป็นความจริง
มันตลก/น่าสนใจ/น่ากลัวสำหรับฉันที่นักพัฒนาเปลี่ยนจากคำขวัญที่เกือบจะเป็นศาสนาของ 'Garbage In, Garbage Out' เมื่อฉันเรียนคอมพิวเตอร์ - มาเป็นการฝึก AI ที่ควรจะฉลาดเหนือธรรมชาติของเราด้วยโพสต์ reddit หรือแม้แต่สิ่งที่แย่กว่านั้น
กลยุทธ์การให้ลิขสิทธิ์ AI ของ Reddit:
- ลงนามข้อตกลงการให้ลิขสิทธิ์ข้อมูลกับ Google สำหรับการค้นหาและการฝึกอบรม AI
- สร้างความร่วมมือกับ OpenAI เพื่อการพัฒนา AI
- ฟ้อง Anthropic ในเดือนมิถุนายน 2024 ข้อหาการเก็บข้อมูลอย่างต่อเนื่องโดยไม่ได้รับอนุญาต
- บล็อกเครื่องมือค้นหาหลักจากการเก็บข้อมูลเว็บไซต์ เว้นแต่จะจ่ายเงิน
- ดำเนินการเปลี่ยนแปลง API ในปี 2023 ที่บังคับให้แอปพลิเคชันของบุคคลที่สามต้องปิดตัวลง
![]() |
---|
ภูมิทัศน์การแข่งขันของข้อมูลการฝึกอบรม AI และผลประโยชน์ขององค์กรที่เน้นย้ำโดยความก้าวหน้าทางเทคโนโลยี |
วิธีแก้ปัญหาทางเทคนิคและความท้าทายในการบังคับใช้
แม้ Reddit จะพยายามควบคุมการเข้าถึง การดำเนินการทางเทคนิคก็เผชิญกับความท้าทายที่สำคัญ แพลตฟอร์มบล็อก IP ของบริการคลาวด์หลายแห่งแล้ว ซึ่งส่งผลกระทบต่อนักวิจัยและนักเก็บถาวรที่ถูกต้องตามกฎหมายควบคู่ไปกับผู้เก็บข้อมูล AI ในขณะเดียวกัน เว็บไซต์เก็บถาวรเฉพาะบางแห่งยังคงดำเนินการได้สำเร็จ ซึ่งชี้ให้เห็นว่าผู้ที่มุ่งมั่นยังสามารถเข้าถึงข้อมูล Reddit ผ่านวิธีการต่างๆ ได้
แนวทางการบังคับใช้เผยให้เห็นความสามารถทางเทคนิคที่จำกัดของ Reddit ในด้านนี้ แทนที่จะใช้การจำกัดอัตราที่ซับซ้อนหรือการควบคุมการเข้าถึง แพลตฟอร์มพึ่งพาการบล็อก IP อย่างกว้างๆ และการขู่ทางกฎหมายเพื่อจัดการการเข้าถึงโดยไม่ได้รับอนุญาต
![]() |
---|
การตอบสนองของอุตสาหกรรมเทคโนโลยีต่อความท้าทายในการจัดการข้อมูลและการควบคุมการเข้าถึงที่แสดงโดย GitHub |
ผลกระทบที่กว้างขึ้นต่อการเข้าถึงเว็บแบบเปิด
การพัฒนานี้เข้ากับรูปแบบที่ใหญ่กว่าของแพลตฟอร์มที่จำกัดการเข้าถึงข้อมูลในขณะที่บริษัท AI แสวงหาวัสดุฝึก การอภิปรายของชุมชนเผยให้เห็นความกังวลว่าแนวโน้มนี้อาจเปลี่ยนแปลงการไหลของข้อมูลบนอินเทอร์เน็ตอย่างพื้นฐาน ซึ่งอาจสร้างสภาพแวดล้อมเว็บที่ปิดและเชิงพาณิชย์มากขึ้น
สถานการณ์นี้ยังตั้งคำถามเกี่ยวกับว่าใครเป็นเจ้าของและควบคุมเนื้อหาที่ผู้ใช้สร้างขึ้น Reddit กำลังขายเนื้อหาที่ผู้ใช้สร้างขึ้นให้กับบริษัท AI ในขณะเดียวกันก็ป้องกันบริการเก็บถาวรฟรีจากการเก็บรักษาเนื้อหาเดียวกันนั้นเพื่อวัตถุประสงค์ทางประวัติศาสตร์
เมื่อการเฟื่องฟู AI ยังคงดำเนินต่อไป ความตึงเครียดระหว่างการให้สิทธิ์ข้อมูลเชิงพาณิชย์และการเข้าถึงข้อมูลแบบเปิดน่าจะทวีความรุนแรงขึ้น โดยมีความพยายามในการเก็บรักษาดิจิทัลติดอยู่ตรงกลาง