เจ้าของเว็บไซต์บล็อก Crawler เบราว์เซอร์เก่าเพื่อต่อสู้กับการขุดข้อมูลสำหรับ LLM ที่เพิ่มขึ้น

ทีมชุมชน BigGo
เจ้าของเว็บไซต์บล็อก Crawler เบราว์เซอร์เก่าเพื่อต่อสู้กับการขุดข้อมูลสำหรับ LLM ที่เพิ่มขึ้น

ผู้ดูแลเว็บไซต์ได้ใช้มาตรการป้องกัน crawler อย่างเข้มงวดเพื่อบล็อกผู้เยี่ยมชมที่ใช้เบราว์เซอร์รุ่นเก่า โดยอ้างถึงการเพิ่มขึ้นของ crawler ปริมาณสูงที่ดูเหมือนจะรวบรวมข้อมูลสำหรับการฝึกโมเดลภาษาขนาดใหญ่ (LLM) ระบบบล็อกนี้มุ่งเป้าไปที่ user agent ของ Chrome รุ่นเก่าที่ได้รับความนิยมในหมู่ crawler อัตโนมัติในช่วงต้นปี 2025

บริการ Archive ที่ได้รับผลกระทบ:

  • archive.today
  • archive.ph
  • archive.is
  • ทางเลือกที่แนะนำ: archive.org

บริการจัดเก็บข้อมูลได้รับผลกระทบ

มาตรการบล็อกดังกล่าวได้ส่งผลกระทบต่อบริการจัดเก็บข้อมูลที่ถูกต้องตามกฎหมายโดยไม่ได้ตั้งใจ โดยเฉพาะ archive.today, archive.ph และ archive.is บริการเหล่านี้ใช้ user agent string ของ Chrome รุ่นเก่าและ crawl จากบล็อก IP address ที่กระจายซึ่งไม่ได้ระบุอย่างชัดเจนว่าเป็นบริการจัดเก็บข้อมูล IP address บางตัวของพวกเขาใช้ reverse DNS entries ปลอมที่อ้างว่าเป็น crawler ของ Google ซึ่งเป็นการปฏิบัติที่มักเกี่ยวข้องกับผู้กระทำผิด

เจ้าของเว็บไซต์แนะนำให้ใช้ archive.org แทน โดยอธิบายว่าเป็น archival crawler ที่มีพฤติกรรมดีกว่าและสามารถเข้าถึงเนื้อหาที่ถูกบล็อกได้สำเร็จ

ชุมชนรำลึกถึงยุค X Terminal

ในขณะที่เหตุการณ์การบล็อกนี้ก่ให้เกิดการอภิปราย สมาชิกในชุมชนได้ใช้โอกาสนี้ในการรำลึกถึงยุคทองของ X terminal - อุปกรณ์ฮาร์ดแวร์เฉพาะที่ทำหน้าที่เป็น thin client สำหรับ Unix workstation ในช่วงทศวรรษ 1980 และ 1990 terminal เหล่านี้ให้จอแสดงผลความละเอียดสูง มักจะ 1280x1024 หรือแม้แต่ 1024x1024 พิกเซล เชื่อมต่อกับเซิร์ฟเวอร์ที่มีประสิทธิภาพผ่าน Ethernet

ผู้ใช้แบ่งปันความทรงจำเกี่ยวกับว่าระบบเหล่านี้ทำงานได้ดีอย่างน่าประหลาดใจแม้จะใช้การเชื่อมต่อ Ethernet 10Mbps ร่วมกันในหลาย ๆ terminal X Window System ได้รับการปรับปรุงอย่างสูงสำหรับการดำเนินการวาดภาพในท้องถิ่น ทำให้แม้แต่เกมก็สามารถทำงานได้อย่างราบรื่นผ่านเครือข่าย

ฉันประหลาดใจที่ห้องที่เต็มไปด้วย terminal ระดับท็อป 1280x1024 สามารถทำงานได้ดีมากบน 10mbps ที่ใช้ร่วมกันพร้อมกับการตรวจจับการชนที่แย่มาก

ข้อมูลจำเพาะทางประวัติศาสตร์ของ X Terminal:

  • ความละเอียดของจอแสดงผล: 1280x1024 หรือ 1024x1024 พิกเซล
  • เครือข่าย: ใช้งาน Ethernet 10Mbps ร่วมกัน
  • ระบบปฏิบัติการ: หลากหลาย (บางตัวใช้ BSD variants ที่ไม่มี MMU)
  • ซอฟต์แวร์: สามารถรัน mwm, Motif session manager, dtterm, JVM และเบราว์เซอร์ Mosaic ได้

ความเสื่อมของ Thin Client Computing

การอภิปรายของชุมชนเผยให้เห็นว่าการเพิ่มขึ้นของเว็บเบราว์เซอร์ โดยเฉพาะ NCSA Mosaic และต่อมา Netscape เป็นจุดเริ่มต้นของการสิ้นสุดของ X terminal เว็บเบราว์เซอร์ยุคแรกเหล่านี้ส่งข้อมูล bitmap จำนวนมากผ่านการเชื่อมต่อเครือข่าย สร้างคอขวดที่ทำให้โมเดล thin client มีความเป็นไปได้น้อยลง

การเปลี่ยนแปลงไปสู่เนื้อหามัลติมีเดียและหน้าเว็บที่เต็มไปด้วยรูปภาพต้องการการสตรีมข้อมูลภาพอย่างต่อเนื่องไปยัง terminal ทำให้โครงสร้างพื้นฐานเครือข่ายที่เคยทำงานได้ดีสำหรับแอปพลิเคชันที่ใช้ข้อความและการดำเนินการวาด X11 ที่ปรับปรุงแล้วล้นหลาม

เหตุการณ์การบล็อก crawler ในปัจจุบันทำหน้าที่เป็นการเตือนใจว่าทรัพยากรเครือข่ายยังคงมีค่า แม้จะผ่านไปหลายทศวรรษหลังจากยุค X terminal สิ้นสุดลง เจ้าของเว็บไซต์ยังคงต้องสร้างสมดุลระหว่างการเข้าถึงได้กับการปกป้องทรัพยากร แม้ว่าภัยคุกคามจะพัฒนาจากข้อจำกัดของแบนด์วิดธ์ไปสู่ความกังวลเรื่องการเก็บเกี่ยวข้อมูล

อ้างอิง: You're using a suspiciously old browser