ผู้ดูแลเว็บไซต์กำลังหันมาใช้วิธีการบล็อกทั้งประเทศและเครือข่ายของผู้ให้บริการคลาวด์มากขึ้น เนื่องจาก web scrapers ที่ขับเคลื่อนด้วย AI ยังคงเพิกเฉยต่อการควบคุมการเข้าถึงแบบดั้งเดิม ตัวอย่างล่าสุดเกี่ยวข้องกับบอทที่เรียกว่า Thinkbot ที่ใช้ที่อยู่ IP ที่ไม่ซ้ำกัน 74 ตัวใน 41 บล็อกเครือข่าย ซึ่งทั้งหมดเป็นของยักษ์ใหญ่ด้านเทคโนโลยีจีน Tencent โดยไม่สนใจไฟล์ robots.txt ที่เว็บไซต์ใช้เพื่อสื่อสารการตั้งค่าการคลาน
เครือข่าย Tencent ที่ถูกบล็อกโดยผู้ดูแลเว็บไซต์บ่อยครั้ง
ช่วง Network | ประเภท | ความครอบคลุม |
---|---|---|
43.130.0.0/18 | Tencent Cloud | ~16,384 IPs |
43.135.0.0/18 | Tencent Cloud | ~16,384 IPs |
101.32.0.0/20 | Tencent Cloud | ~4,096 IPs |
119.28.64.0/19 | Tencent Cloud | ~8,192 IPs |
170.106.32.0/19 | Tencent Cloud | ~8,192 IPs |
ความครอบคลุมทั้งหมด: มากกว่า 476,590 ที่อยู่ IP ที่ไม่ซ้ำกันใน 41 network blocks
ขนาดของปัญหา
เหตุการณ์ Thinkbot เน้นย้ำแนวโน้มที่เพิ่มขึ้นที่ automated scrapers ทำงานข้ามช่วง IP ขนาดใหญ่เพื่อหลีกเลี่ยงการตรวจจับและการบล็อก แทนที่จะให้เอกสารที่เหมาะสมหรือเคารพโปรโตคอลเว็บมาตรฐาน บอทตัวนี้เพียงแค่บอกเจ้าของเว็บไซต์ให้บล็อกที่อยู่ IP หากพวกเขาไม่ชอบการเข้าชม วิธีการนี้บังคับให้ผู้ดูแลเข้าสู่เกมตีตุ่นที่มีค่าใช้จ่ายสูง เนื่องจากการบล็อกที่อยู่แต่ละตัวกลายเป็นสิ่งที่ไม่มีประสิทธิภาพเมื่อบอทสามารถสลับระหว่าง IP ที่แตกต่างกันหลายพันตัว
ผู้ดำเนินการเว็บไซต์หลายรายรายงานว่าโซลูชันแบบดั้งเดิมเช่นการจำกัดอัตราและการบล็อก user agent กลายเป็นสิ่งที่ไร้ประโยชน์ไปแล้ว ชุมชนได้สังเกตว่า scrapers เหล่านี้มักจะรอด้วยความอดทนผ่านการควบคุมแบนด์วิธและปรับตัวอย่างรวดเร็วต่อมาตรการป้องกันมาตรฐาน ผู้ดูแลบางคนพบความสำเร็จด้วยวิธีการที่สร้างสรรค์ เช่น การต้องการพารามิเตอร์ URL เฉพาะหรือการให้บริการเนื้อหาที่แตกต่างกับบอทที่น่าสงสัย แต่วิธีการเหล่านี้ต้องการการบำรุงรักษาอย่างต่อเนื่องและความเชี่ยวชาญทางเทคนิค
การบล็อกระดับภูมิศาสตร์และเครือข่าย
การอภิปรายเผยให้เห็นว่าเจ้าของเว็บไซต์หลายคนได้เปลี่ยนมาบล็อกทั้งประเทศ โดยเฉพาะจีนและรัสเซีย โดยรายงานการลดลงอย่างมากของการเข้าชมที่เป็นอันตราย ผู้ดูแลบางคนรายงานว่าเห็นการลดลง 90-95% ในความพยายามโจมตีและกิจกรรมบอทที่ไม่พึงประสงค์หลังจากการใช้การบล็อกระดับประเทศ อย่างไรก็ตาม วิธีการนี้สร้างปัญหาการเข้าถึงสำหรับผู้ใช้ที่ถูกต้องตามกฎหมายที่เดินทางไปต่างประเทศหรือใช้บริการ VPN
เครือข่ายผู้ให้บริการคลาวด์นำเสนอความท้าทายอีกประการหนึ่ง เนื่องจาก scrapers ใช้บริการจาก Amazon Web Services , Google Cloud , Microsoft Azure และผู้ให้บริการรายใหญ่อื่นๆ มากขึ้น เจ้าของเว็บไซต์บางคนได้เริ่มบล็อกช่วง IP ของผู้ให้บริการคลาวด์ทั้งหมด แม้ว่าสิ่งนี้อาจส่งผลกระทบต่อผู้ใช้ธุรกิจที่ถูกต้องตามกฎหมายที่เข้าถึงเว็บไซต์ผ่าน VPN ของบริษัทที่โฮสต์บนแพลตฟอร์มเหล่านี้
เราแก้ปัญหาหลายอย่างด้วยการบล็อก ASNs ของจีนทั้งหมด ต้องยอมรับว่าไม่ใช่โซลูชันที่เป็นมิตรที่สุด แต่มีปัญหามากมายที่มาจากไคลเอนต์จีนจนง่ายกว่าที่จะแบนทั้งประเทศ
กลยุทธ์การบล็อกทางภูมิศาสตร์ทั่วไป
แนวทาง | ประสิทธิภาพ | ข้อเสีย |
---|---|---|
การบล็อกระดับประเทศ ( China / Russia ) | ลดการเข้าชมที่เป็นอันตรายได้ 90-95% | บล็อกผู้ใช้ที่ถูกต้องตามกฎหมายและนักเดินทาง |
การบล็อก ASN ของผู้ให้บริการคลาวด์ | ประสิทธิภาพสูงต่อการต่อต้านฟาร์มบอท | ส่งผลกระทบต่อผู้ใช้ธุรกิจที่ใช้ VPN ขององค์กร |
การตรวจจับพร็อกซีที่อยู่อาศัย | ประสิทธิภาพปานกลาง | การใช้งานที่ซับซ้อน มีผลบวกปลอม |
การเข้าถึงแบบรายชื่อที่อนุญาตเท่านั้น | ความปลอดภัยสูงสุด | จำกัดการเข้าถึงได้อย่างรุนแรง |
มาตรการตอบโต้ทางเทคนิคและข้อจำกัด
ผู้ดูแลเว็บไซต์กำลังสำรวจโซลูชันทางเทคนิคต่างๆ นอกเหนือจากการบล็อก IP แบบง่าย บางคนใช้บริการเช่น Cloudflare สำหรับการกรองทางภูมิศาสตร์ ในขณะที่คนอื่นใช้กฎไฟร์วอลล์แบบกำหนดเองที่เพิ่มเครือข่ายที่มีปัญหาลงในรายการบล็อกโดยอัตโนมัติ วิธีการที่ซับซ้อนมากขึ้นรวมถึงการวิเคราะห์รูปแบบการเข้าชมเพื่อระบุเครือข่ายศูนย์ข้อมูลเทียบกับการเชื่อมต่อที่อยู่อาศัย แม้ว่าสิ่งนี้จะซับซ้อนขึ้นด้วยการเพิ่มขึ้นของบริการ residential proxy
การอภิปรายของชุมชนยังเผยให้เห็นกลยุทธ์การป้องกันที่น่าสนใจ เช่น การให้ข้อมูลปลอมหรือเสียหายแก่ scrapers ที่น่าสงสัย การใช้ zip bombs ที่ใช้ทรัพยากรของ scraper หรือการใช้เทคนิค honeypot เพื่อระบุและบล็อกผู้กระทำที่เป็นอันตราย อย่างไรก็ตาม วิธีการเหล่านี้ต้องการความเชี่ยวชาญทางเทคนิคอย่างมากและการบำรุงรักษาอย่างต่อเนื่อง
ผลกระทบต่อโครงสร้างพื้นฐานอินเทอร์เน็ตในวงกว้าง
ความขัดแย้งที่เพิ่มขึ้นระหว่างเจ้าของเว็บไซต์และ automated scrapers กำลังเปลี่ยนแปลงวิธีการทำงานของอินเทอร์เน็ตโดยพื้นฐาน การนำการบล็อกระดับภูมิศาสตร์และเครือข่ายมาใช้อย่างแพร่หลายกำลังสร้างเว็บที่แยกส่วนมากขึ้น ซึ่งการเข้าถึงขึ้นอยู่กับตำแหน่งและผู้ให้บริการเครือข่ายของคุณเป็นหลัก ผู้ดูแลบางคนกังวลว่าแนวโน้มนี้ไปสู่การบล็อกเชิงป้องกันจะต้องใช้ระบบที่ใช้ whitelist ในที่สุดแทนที่จะเป็นโมเดลอินเทอร์เน็ตที่เปิดโดยค่าเริ่มต้นในปัจจุบัน
สถานการณ์นี้ยังทำให้เกิดคำถามเกี่ยวกับความยั่งยืนของโครงสร้างพื้นฐานเว็บปัจจุบันเมื่อเผชิญกับการเข้าชมอัตโนมัติที่ซับซ้อนมากขึ้น เมื่อบริษัท AI ยังคงคลานเนื้อหาเว็บเพื่อข้อมูลการฝึกอบรม และเมื่อมาตรการป้องกันกลายเป็นเชิงรุกมากขึ้น อินเทอร์เน็ตอาจพัฒนาไปสู่ระบบที่จำกัดและแบ่งช่องมากขึ้นที่ให้ความสำคัญกับความปลอดภัยมากกว่าการเข้าถึงแบบสากล
อ้างอิง: The Boston Diaries