Web Crawlers ที่ใช้ Browser Signatures เก่าบังคับให้เจ้าของเว็บไซต์ต้องบล็อกผู้ใช้งานที่ถูกต้อง

ทีมชุมชน BigGo
Web Crawlers ที่ใช้ Browser Signatures เก่าบังคับให้เจ้าของเว็บไซต์ต้องบล็อกผู้ใช้งานที่ถูกต้อง

ปัญหาที่กำลังเติบโตขึ้นทั่วเว็บไซต์คือ crawlers ปริมาณสูงจำนวนมาก ซึ่งหลายตัวถูกสงสัยว่าเก็บข้อมูลเพื่อการฝึก AI กำลังปลอมตัวโดยใช้ browser signatures ที่ล้าสมัย สิ่งนี้ทำให้ผู้ดูแลเว็บไซต์ต้องใช้มาตรการบล็อกที่บางครั้งจับผู้ใช้งานที่ถูกต้องได้ด้วย

ปัญหานี้กลายเป็นเรื่องรุนแรงโดยเฉพาะในช่วงต้นปี 2025 โดยเจ้าของเว็บไซต์รายงานการเพิ่มขึ้นอย่างมีนัยสำคัญของภาระเซิร์ฟเวอร์จาก automated crawlers เหล่านี้ crawlers เหล่านี้มักปลอมตัวเป็น browser ยอดนิยมเวอร์ชันเก่าอย่าง Chrome ทำให้ยากต่อการแยกแยะระหว่างผู้ใช้งานจริงที่มีซอฟต์แวร์ล้าสมัยกับ automated traffic ที่เป็นอันตราย

ลักษณะทั่วไปของ Crawler :

  • ใช้ค่า User-Agent ของ Chrome เวอร์ชันเก่า
  • ทำการ crawl จากบล็อก IP address ที่กระจายอย่างกว้างขวาง
  • บางตัวใช้รายการ reverse DNS ปลอมโดยอ้างว่าเป็น googlebot
  • คำขออัตโนมัติในปริมาณสูง
  • สงสัยว่าเป็นการเก็บรวบรวมข้อมูลเพื่อการฝึกอบรม LLM

บริการ Archive ติดอยู่ในสายไฟ

บริการ archiving ยอดนิยมกลายเป็นเหยื่อที่ไม่ได้ตั้งใจของมาตรการต่อต้าน crawler เหล่านี้ บริการอย่าง archive.today , archive.ph และ archive.is ใช้ browser signatures เก่าเมื่อ crawl หน้าเว็บเพื่อการเก็บรักษา ทำให้ไม่สามารถแยกแยะจาก crawlers ที่มีปัญหาซึ่งเจ้าของเว็บไซต์กำลังพยายามบล็อก

สถานการณ์ซับซ้อนขึ้นเพราะบริการ archive เหล่านี้ทำงานจาก IP address blocks แบบกระจายที่ไม่ได้ระบุอย่างชัดเจนว่าเป็นของบริการ archival บางตัวยังใช้ reverse DNS entries ปลอมที่อ้างว่าเป็น search engine crawlers ที่ถูกต้อง ซึ่งเป็นการปฏิบัติที่มักเชื่อมโยงกับ malicious actors

บริการ Archive ที่ได้รับผลกระทบ:

  • archive.today
  • archive.ph
  • archive.is
  • โดเมน archive.* อื่นๆ

ทางเลือกที่แนะนำ:

  • archive.org (ตัวรวบรวมข้อมูลสำหรับเก็บถาวรที่มีพฤติกรรมดีกว่า)

โซลูชันทางเทคนิคและการอภิปรายในชุมชน

ชุมชนนักพัฒนาได้อภิปรายอย่างกระตือรือร้นเกี่ยวกับแนวทางต่างๆ ในการจัดการกับความท้าทายนี้ ในขณะที่บางคนมุ่งเน้นไปที่กลไกการบล็อกฝั่งเซิร์ฟเวอร์ คนอื่นๆ กำลังสำรวจวิธีการตรวจจับที่ซับซ้อนมากขึ้นที่สามารถแยกแยะระหว่างบริการ archival ที่ถูกต้องกับการดำเนินการเก็บเกี่ยวข้อมูล

You can just do trap 'caller 1' ERR should do the same thing. Also you should set errtrace (-E) and possibly nounset (-u) and pipefail.

การอภิปรายยังจุดประกายการสนทนาที่กว้างขึ้นเกี่ยวกับความสมดุลระหว่างการปกป้องเว็บไซต์จาก automated traffic ที่มากเกินไปและการรักษาการเข้าถึงได้สำหรับวัตถุประสงค์ archival และการวิจัยที่ถูกต้อง นักพัฒนาจำนวนมากสนับสนุนแนวทางที่เป็นมาตรฐานมากขึ้นในการระบุ crawlers และบริการ archive ที่ถูกต้อง

ผลกระทบต่อการเข้าถึงเว็บ

การแข่งขันแบบ arms race ของ crawler นี้กำลังสร้างอุปสรรคใหม่ต่อการเข้าถึงเว็บและความพยายามในการ archival ผู้ใช้งานที่มี browser ล้าสมัยจริงๆ อาจพบว่าตัวเองไม่สามารถเข้าถึงเนื้อหาได้ ในขณะที่ความพยายามในการเก็บรักษาเว็บที่สำคัญเผชิญกับอุปสรรคที่เพิ่มขึ้น

สถานการณ์นี้เน้นย้ำถึงความตึงเครียดที่ดำเนินต่อไประหว่างการปกป้องทรัพยากรเว็บและการรักษาอินเทอร์เน็ตที่เปิดกว้างและเข้าถึงได้ ขณะที่บริษัท AI ยังคงแสวงหาข้อมูลฝึกและ malicious actors กลายเป็นที่ซับซ้อนมากขึ้นในแนวทางของพวกเขา เจ้าของเว็บไซต์ถูกบังคับให้ตัดสินใจที่ยากขึ้นเรื่อยๆ เกี่ยวกับการควบคุมการเข้าถึง

ผู้ดูแลเว็บไซต์ขณะนี้แนะนำให้ผู้ใช้งานอัปเดต browser ของพวกเขาไม่เพียงแต่เพื่อเหตุผลด้านความปลอดภัย แต่เพื่อหลีกเลี่ยงการถูกบล็อกโดยผิดพลาดจากระบบต่อต้าน crawler ในขณะเดียวกัน ชุมชน archival กำลังเรียกร้องให้มีมาตรฐานและระบบระบุตัวตนที่ดีขึ้นเพื่อแยกแยะความพยายามในการเก็บรักษาที่ถูกต้องจากการดำเนินการเก็บเกี่ยวข้อมูล

อ้างอิง: You're using a suspiciously old browser