ผู้ดูแลเว็บไซต์ได้ใช้มาตรการป้องกัน crawler อย่างรุนแรงซึ่งขณะนี้ได้ปิดกั้นผู้ใช้งานที่ถูกต้องตามกฎหมายและบริการจัดเก็บข้อมูลที่เป็นที่นิยม การเคลื่อนไหวนี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างผู้สร้างเนื้อหาและบริษัท AI ที่แสวงหาข้อมูลสำหรับการฝึกอบรม
เจ้าของ Wandering Thoughts blog และ CSpace wiki ได้เริ่มปิดกั้นเบราว์เซอร์ที่มี user agent strings เก่า โดยอ้างถึงการระบาดของ crawler ปริมาณสูงที่รวบรวมข้อมูลสำหรับการฝึกอบรม large language model (LLM) มาตรการป้องกันนี้ได้สร้างผลกระทบที่ไม่คาดคิด ส่งผลต่อทั้งผู้ใช้ทั่วไปที่มีเบราว์เซอร์ล้าสมัยและบริการจัดเก็บข้อมูลหลัก
บริการ Archive ติดอยู่ในสายไฟ
แพลตฟอร์มจัดเก็บข้อมูลที่เป็นที่นิยมเช่น archive.today, archive.ph และ archive.is ขณะนี้ไม่สามารถ crawl เว็บไซต์ได้อย่างเหมาะสม เจ้าของเว็บไซต์ได้ชี้ชื่อบริการเหล่านี้โดยเฉพาะสำหรับการใช้ Chrome user agent strings เก่าและการดำเนินงานจากบล็อก IP address ที่กระจายอย่างกว้างขวางซึ่งทำให้ไม่สามารถแยกแยะจากผู้กระทำที่เป็นอันตรายได้ IP address ของบริการ archive บางรายการยังใช้รายการ reverse DNS ที่ปลอมแปลงอ้างว่าเป็น crawler ของ Google ซึ่งเป็นแนวปฏิบัติที่มักเกี่ยวข้องกับผู้กระทำที่ไม่ดี
สถานการณ์นี้ได้บังคับให้ผู้ใช้ที่แสวงหาเนื้อหาที่เก็บถาวรต้องพึ่งพาบริการทางเลือกเช่น archive.org ซึ่งเจ้าของเว็บไซต์พิจารณาว่ามีพฤติกรรมที่ดีกว่า
บริการ Archive ที่ได้รับผลกระทบ:
- archive.today
- archive.ph
- archive.is
- โดเมน archive.* อื่นๆ
ทางเลือกที่แนะนำ:
- archive.org (ถือว่ามีพฤติกรรมที่ดีกว่าตามมุมมองของเจ้าของเว็บไซต์)
ชุมชนหารือเกี่ยวกับโครงสร้างพื้นฐาน IT แบบดั้งเดิม
ในขณะที่บทความหลักมุ่งเน้นไปที่การปิดกั้น crawler การอภิปรายในชุมชนได้เปลี่ยนไปสู่คุณค่าของทรัพยากรคอมพิวติ้งที่ใช้ร่วมกันแบบดั้งเดิมในสภาพแวดล้อมทางวิชาการและองค์กร ผู้ใช้ได้แบ่งปันประสบการณ์เกี่ยวกับ login servers - เครื่อง Unix ที่ใช้ร่วมกันซึ่งให้ทรัพยากรคอมพิวติ้งส่วนกลางสำหรับองค์กร
ระบบเหล่านี้มีจุดประสงค์หลายอย่างนอกเหนือจากการเข้าถึงระยะไกลอย่างง่าย พวกเขาทำหน้าที่เป็นฮับการถ่ายโอนไฟล์ที่สะดวก สถานที่จัดเก็บข้อมูลสำรอง และแพลตฟอร์มสำหรับการรันงานที่กำหนดเวลา องค์กรบางแห่งได้ใช้พวกเขาเป็นจุดปลายทางถาวรสำหรับบริการสื่อสารเช่น IRC แม้ว่าหลายแห่งได้ย้ายไปใช้ทางเลือกที่ทันสมัยเช่น Slack แล้วก็ตาม
สังเกตว่า cloud VM หรือ container อาจไม่ทำงานที่นี่ คุณต้องการสิ่งที่มีการปรากฏตัวถาวร และใช้ร่วมกันระหว่างผู้ใช้
การอภิปรายเผยให้เห็นว่าแบบจำลองคอมพิวติ้งแบบดั้งเดิมเหล่านี้ยังคงมีความเกี่ยวข้อง โดยเฉพาะในสภาพแวดล้อมการวิจัยที่ผู้ใช้ต้องการการเข้าถึงที่สม่ำเสมอไปยังระบบไฟล์ที่ใช้ร่วมกันและซอฟต์แวร์เฉพาะทาง คลัสเตอร์คอมพิวติ้งประสิทธิภาพสูงที่มหาวิทยาลัยและสถาบันวิจัยยังคงพึ่งพาสถาปัตยกรรม login node ซึ่งแสดงให้เห็นว่าแนวทางเหล่านี้ยังคงมีข้อได้เปรียบในทางปฏิบัติเหนือทางเลือกที่ใช้ cloud
กรณีการใช้งาน Login Server ในองค์กร:
- การสำรองข้อมูล Git และไฟล์
- ศูนย์กลางการถ่ายโอนไฟล์ (การดำเนินการ scp )
- การอัปโหลดไฟล์ร่วมกันสำหรับเพื่อนร่วมงาน
- จุดเชื่อมต่อ IRC แบบถาวร (ใช้ screen / tmux )
- การรันงาน cron ตามตารางเวลา
- สภาพแวดล้อมการพัฒนาระยะไกล (แบ็กเอนด์ VSCode )
ผลกระทบที่กว้างขึ้นต่อการเข้าถึงเว็บ
มาตรการป้องกัน crawler แสดงถึงแนวโน้มที่เพิ่มขึ้นของผู้สร้างเนื้อหาที่ใช้การกระทำเชิงป้องกันต่อการรวบรวมข้อมูลการฝึกอบรม AI อย่างไรก็ตาม มาตรการเหล่านี้สร้างความสมดุลที่ท้าทายระหว่างการปกป้องเนื้อหาและการรักษาการเข้าถึงสำหรับผู้ใช้และบริการที่ถูกต้องตามกฎหมาย
สถานการณ์นี้แสดงให้เห็นว่าคลื่นลูกปัจจุบันของการพัฒนา AI กำลังบังคับให้ผู้ดำเนินการเว็บไซต์ต้องเลือกอย่างยากลำบากเกี่ยวกับการควบคุมการเข้าถึง ซึ่งอาจทำให้ธรรมชาติแบบเปิดของเนื้อหาเว็บที่ได้สนับสนุนทั้งผู้ใช้มนุษย์และบริการอัตโนมัติที่เป็นประโยชน์เช่น archives แตกแยกออกไป