เจ้าของเว็บไซต์ปิดกั้นบริการ Archive และเบราว์เซอร์เก่าเพื่อต่อสู้กับ AI Training Crawlers

ทีมชุมชน BigGo
เจ้าของเว็บไซต์ปิดกั้นบริการ Archive และเบราว์เซอร์เก่าเพื่อต่อสู้กับ AI Training Crawlers

ผู้ดูแลเว็บไซต์ได้ใช้มาตรการป้องกัน crawler อย่างรุนแรงซึ่งขณะนี้ได้ปิดกั้นผู้ใช้งานที่ถูกต้องตามกฎหมายและบริการจัดเก็บข้อมูลที่เป็นที่นิยม การเคลื่อนไหวนี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างผู้สร้างเนื้อหาและบริษัท AI ที่แสวงหาข้อมูลสำหรับการฝึกอบรม

เจ้าของ Wandering Thoughts blog และ CSpace wiki ได้เริ่มปิดกั้นเบราว์เซอร์ที่มี user agent strings เก่า โดยอ้างถึงการระบาดของ crawler ปริมาณสูงที่รวบรวมข้อมูลสำหรับการฝึกอบรม large language model (LLM) มาตรการป้องกันนี้ได้สร้างผลกระทบที่ไม่คาดคิด ส่งผลต่อทั้งผู้ใช้ทั่วไปที่มีเบราว์เซอร์ล้าสมัยและบริการจัดเก็บข้อมูลหลัก

บริการ Archive ติดอยู่ในสายไฟ

แพลตฟอร์มจัดเก็บข้อมูลที่เป็นที่นิยมเช่น archive.today, archive.ph และ archive.is ขณะนี้ไม่สามารถ crawl เว็บไซต์ได้อย่างเหมาะสม เจ้าของเว็บไซต์ได้ชี้ชื่อบริการเหล่านี้โดยเฉพาะสำหรับการใช้ Chrome user agent strings เก่าและการดำเนินงานจากบล็อก IP address ที่กระจายอย่างกว้างขวางซึ่งทำให้ไม่สามารถแยกแยะจากผู้กระทำที่เป็นอันตรายได้ IP address ของบริการ archive บางรายการยังใช้รายการ reverse DNS ที่ปลอมแปลงอ้างว่าเป็น crawler ของ Google ซึ่งเป็นแนวปฏิบัติที่มักเกี่ยวข้องกับผู้กระทำที่ไม่ดี

สถานการณ์นี้ได้บังคับให้ผู้ใช้ที่แสวงหาเนื้อหาที่เก็บถาวรต้องพึ่งพาบริการทางเลือกเช่น archive.org ซึ่งเจ้าของเว็บไซต์พิจารณาว่ามีพฤติกรรมที่ดีกว่า

บริการ Archive ที่ได้รับผลกระทบ:

  • archive.today
  • archive.ph
  • archive.is
  • โดเมน archive.* อื่นๆ

ทางเลือกที่แนะนำ:

  • archive.org (ถือว่ามีพฤติกรรมที่ดีกว่าตามมุมมองของเจ้าของเว็บไซต์)

ชุมชนหารือเกี่ยวกับโครงสร้างพื้นฐาน IT แบบดั้งเดิม

ในขณะที่บทความหลักมุ่งเน้นไปที่การปิดกั้น crawler การอภิปรายในชุมชนได้เปลี่ยนไปสู่คุณค่าของทรัพยากรคอมพิวติ้งที่ใช้ร่วมกันแบบดั้งเดิมในสภาพแวดล้อมทางวิชาการและองค์กร ผู้ใช้ได้แบ่งปันประสบการณ์เกี่ยวกับ login servers - เครื่อง Unix ที่ใช้ร่วมกันซึ่งให้ทรัพยากรคอมพิวติ้งส่วนกลางสำหรับองค์กร

ระบบเหล่านี้มีจุดประสงค์หลายอย่างนอกเหนือจากการเข้าถึงระยะไกลอย่างง่าย พวกเขาทำหน้าที่เป็นฮับการถ่ายโอนไฟล์ที่สะดวก สถานที่จัดเก็บข้อมูลสำรอง และแพลตฟอร์มสำหรับการรันงานที่กำหนดเวลา องค์กรบางแห่งได้ใช้พวกเขาเป็นจุดปลายทางถาวรสำหรับบริการสื่อสารเช่น IRC แม้ว่าหลายแห่งได้ย้ายไปใช้ทางเลือกที่ทันสมัยเช่น Slack แล้วก็ตาม

สังเกตว่า cloud VM หรือ container อาจไม่ทำงานที่นี่ คุณต้องการสิ่งที่มีการปรากฏตัวถาวร และใช้ร่วมกันระหว่างผู้ใช้

การอภิปรายเผยให้เห็นว่าแบบจำลองคอมพิวติ้งแบบดั้งเดิมเหล่านี้ยังคงมีความเกี่ยวข้อง โดยเฉพาะในสภาพแวดล้อมการวิจัยที่ผู้ใช้ต้องการการเข้าถึงที่สม่ำเสมอไปยังระบบไฟล์ที่ใช้ร่วมกันและซอฟต์แวร์เฉพาะทาง คลัสเตอร์คอมพิวติ้งประสิทธิภาพสูงที่มหาวิทยาลัยและสถาบันวิจัยยังคงพึ่งพาสถาปัตยกรรม login node ซึ่งแสดงให้เห็นว่าแนวทางเหล่านี้ยังคงมีข้อได้เปรียบในทางปฏิบัติเหนือทางเลือกที่ใช้ cloud

กรณีการใช้งาน Login Server ในองค์กร:

  • การสำรองข้อมูล Git และไฟล์
  • ศูนย์กลางการถ่ายโอนไฟล์ (การดำเนินการ scp )
  • การอัปโหลดไฟล์ร่วมกันสำหรับเพื่อนร่วมงาน
  • จุดเชื่อมต่อ IRC แบบถาวร (ใช้ screen / tmux )
  • การรันงาน cron ตามตารางเวลา
  • สภาพแวดล้อมการพัฒนาระยะไกล (แบ็กเอนด์ VSCode )

ผลกระทบที่กว้างขึ้นต่อการเข้าถึงเว็บ

มาตรการป้องกัน crawler แสดงถึงแนวโน้มที่เพิ่มขึ้นของผู้สร้างเนื้อหาที่ใช้การกระทำเชิงป้องกันต่อการรวบรวมข้อมูลการฝึกอบรม AI อย่างไรก็ตาม มาตรการเหล่านี้สร้างความสมดุลที่ท้าทายระหว่างการปกป้องเนื้อหาและการรักษาการเข้าถึงสำหรับผู้ใช้และบริการที่ถูกต้องตามกฎหมาย

สถานการณ์นี้แสดงให้เห็นว่าคลื่นลูกปัจจุบันของการพัฒนา AI กำลังบังคับให้ผู้ดำเนินการเว็บไซต์ต้องเลือกอย่างยากลำบากเกี่ยวกับการควบคุมการเข้าถึง ซึ่งอาจทำให้ธรรมชาติแบบเปิดของเนื้อหาเว็บที่ได้สนับสนุนทั้งผู้ใช้มนุษย์และบริการอัตโนมัติที่เป็นประโยชน์เช่น archives แตกแยกออกไป

อ้างอิง: You're using a suspiciously old browser