เว็บไซต์ทั่วโลกกำลังเผชิญกับคลื่นการเข้าชมแบบอัตโนมัติที่ไม่เคยเกิดขึ้นมาก่อน ขณะที่บริษัท AI แข่งขันกันเก็บรวบรวมข้อมูลเพื่อฝึกโมเดลภาษาของตน เจ้าของเว็บไซต์ทั่วอินเทอร์เน็ตรายงานการเพิ่มขึ้นอย่างมากของการเข้าชมจากบอท โดยบางเว็บไซต์เห็นการเพิ่มขึ้นถึง 10 เท่าของจำนวนผู้เยียมชมปกติ การเพิ่มขึ้นครั้งนี้บังคับให้หลายเว็บไซต์ต้องใช้มาตรการบล็อกที่รุนแรง ซึ่งส่งผลกระทบต่อผู้ใช้งานจริงโดยไม่ได้ตั้งใจ
ขนาดของปัญหา
ตัวเลขต่าง ๆ แสดงให้เห็นภาพที่ชัดเจนว่าปัญหานี้รุนแรงเพียงใด เว็บไซต์เล็ก ๆ ที่มีผู้เยียมชมวันละ 300-3,000 คน รายงานว่าอย่างน้อย 70% ของการเข้าชมเป็นการเข้าชมที่ไม่ใช่มนุษย์ ผู้ดูแลฟอรัมอธิบายถึงการเพิ่มขึ้นอย่างกะทันหันของการเข้าชมจากบอท 10 เท่า ซึ่งไม่เคยเห็นมาก่อน เซิร์ฟเวอร์ส่วนตัวที่ใช้เครื่องมือพัฒนาเช่น Jenkins และ Gerrit กำลังถูกครอลเลอร์ที่เพิกเฉยต่อไฟล์ robots.txt โจมตีจนทำให้แอปพลิเคชันที่ใช้ทรัพยากรมากล่มสลาย
ครอลเลอร์เหล่านี้กำลังมีความซับซ้อนมากขึ้นในการพยายามปรากฏตัวเป็นการเข้าชมที่ถูกต้อง พวกมันใช้บริการพร็อกซี่ที่อยู่อาศัยเพื่อปกปิดต้นกำเนิดเชิงพาณิชย์ หมุนเวียนผ่าน IP แอดเดรสหลายล้านตัว และใช้ user agent ของเบราว์เซอร์เก่าเพื่อปะปนกับการเข้าชมปกติ บางตัวยังใช้รายการ DNS ปลอมที่อ้างว่าเป็นบอทของเสิร์ชเอนจินที่ถูกต้อง
สถิติผลกระทบจากการเข้าชม:
- เว็บไซต์ขนาดเล็ก (300-3,000 ครั้งต่อวัน): การเข้าชมที่ไม่ใช่มนุษย์ประมาณ 70%
- การเพิ่มขึ้นของการเข้าชมฟอรัม: สูงถึง 10 เท่าของระดับปกติ
- ผลกระทบต่อทรัพยากรเซิร์ฟเวอร์: การใช้งาน CPU ถึง 500% ในระบบที่ได้รับผลกระทบ
การทำลายสัญญาทางสังคม
สิ่งที่ทำให้สถานการณ์นี้น่าวิตกเป็นพิเศษคือการที่มันละเมิดกฎที่ไม่ได้เขียนไว้ซึ่งทำให้เว็บทำงานได้มานานหลายทศวรรษ อินเทอร์เน็ตถูกสร้างขึ้นจากความร่วมมือและข้อตกลงโดยนัยระหว่างฝ่ายต่าง ๆ เจ้าของเว็บไซต์ให้เนื้อหาฟรี เสิร์ชเอนจินครอลอย่างมีความเคารพ และผู้ใช้มีส่วนร่วมกับเนื้อหาอย่างแท้จริง
สิ่งหนึ่งที่ผมรู้สึกได้จากเรื่องทั้งหมดนี้คือเว็บในปัจจุบันมีความเปราะบางอย่างน่าประหลาด เว็บส่วนใหญ่ดูเหมือนจะถูกค้ำจุนด้วยความเข้าใจและข้อตกลงโดยนัย ไม่ใช่ด้วยเทคโนโลยี
การสลายตัวนี้ขยายไปเกินกว่าแค่การครอลเว็บ รูปแบบเดียวกันของการเพิกเฉยต่อสัญญาทางสังคมปรากฏในด้านต่าง ๆ ของสังคมสมัยใหม่ ตั้งแต่การซื้อขายทางการเมืองไปจนถึงการปฏิบัติทางธุรกิจ ทำให้ชีวิตยากลำบากขึ้นสำหรับทุกคนที่เกี่ยวข้อง
ความเสียหายต่อผู้ใช้จริง
มาตรการป้องกันที่เว็บไซต์ใช้เพื่อปกป้องตัวเองกำลังสร้างปัญหาใหม่สำหรับผู้เยียมชมที่ถูกต้อง ระบบป้องกันบอทขณะนี้บล็อกผู้ใช้ที่มีเบราว์เซอร์เก่า บริการจัดเก็บข้อมูลดิจิทัลมีปัญหาในการเก็บรักษาเนื้อหา และแม้แต่เบราว์เซอร์เวอร์ชันปัจจุบันบางครั้งก็ทำให้เกิดการตรวจจับผิดพลาด CAPTCHA การจำกัดอัตรา และมาตรการรักษาความปลอดภัยอื่น ๆ ทำให้การเบราว์เซอร์ยุ่งยากขึ้นสำหรับทุกคน
สิ่งนี้สร้างวงจรอุบาทว์ที่ประสบการณ์การใช้งานที่แย่ผลักดันผู้คนไปสู่แชทบอท AI เพื่อหาข้อมูล ซึ่งเพิ่มความต้องการสำหรับการครอลที่เป็นสาเหตุของปัญหานี้ สถานการณ์นี้คล้ายกับช่วงแรก ๆ ของการละเมิดลิขสิทธิ์สื่อ ที่ตัวเลือกถูกกฎหมายที่ไม่สะดวกผลักดันผู้ใช้ไปสู่ทางเลือกที่ผิดกฎหมาย
ความท้าทายทางเทคนิคและแนวทางแก้ไข
การระบุและบล็อกครอลเลอร์ที่เป็นอันตรายกลายเป็นเรื่องยากขึ้น วิธีการแบบดั้งเดิมเช่นการบล็อกช่วง IP ของผู้ให้บริการคลาวด์ทำงานได้สำหรับกรณีที่ชัดเจน แต่เครือข่ายพร็อกซี่ที่อยู่อาศัยทำให้การตรวจจับยากขึ้นมาก เว็บไซต์บางแห่งกำลังทดลองกับระบบ proof-of-work ที่ต้องการให้เบราว์เซอร์ทำงานคำนวณก่อนเข้าถึงเนื้อหา
แนวทางแก้ไขที่มีประสิทธิภาพที่สุดในปัจจุบันเกี่ยวข้องกับบริการเช่น Cloudflare ซึ่งสามารถวิเคราะห์รูปแบบการเข้าชมแบบเรียลไทม์และบล็อกเครือข่าย IP ที่เป็นอันตรายทั้งหมด อย่างไรก็ตาม แนวทางแก้ไขเหล่านี้มักมาพร้อมกับค่าใช้จ่ายที่ผู้ดูแลเว็บไซต์เล็ก ๆ ต้องดิ้นรนจ่าย
พฤติกรรมทั่วไปของ Crawler:
- ใช้ user agent ของ Chrome เวอร์ชันเก่าเพื่อให้ดูเหมือนถูกต้องตามกฎหมาย
- หมุนเวียนผ่าน IP address ของที่อยู่อาศัยหลายล้านที่อยู่
- เพิกเฉยต่อไฟล์ robots.txt อย่างสิ้นเชิง
- มุ่งเป้าไปที่หน้าเว็บที่ใช้ทรัพยากรมาก เช่น ผลการค้นหาและกิจกรรมปฏิทิน
- มีต้นกำเนิดจากบล็อก IP ที่กระจายตัวเพื่อหลีกเลี่ยงการตรวจจับ
มองไปข้างหน้า
สถานการณ์ปัจจุบันเน้นย้ำคำถามพื้นฐานเกี่ยวกับอนาคตของเว็บ ด้วยโมเดลโฆษณาแบบดั้งเดิมที่อยู่ภายใต้แรงกดดันและต้นทุนการครอลที่เพิ่มขึ้นอย่างรวดเร็ว หลายคนคาดการณ์ว่าการชำระเงินรายการย่อยหรือโมเดลการสมัครสมาชิกอาจจำเป็นสำหรับการเข้าถึงเนื้อหาคุณภาพออนไลน์
ความท้าทายอยู่ที่การสร้างระบบที่สามารถแยกแยะระหว่างการวิจัยที่ถูกต้อง ความพยายามในการจัดเก็บข้อมูล และการเก็บเกี่ยวข้อมูลเชิงพาณิชย์ ในขณะที่รักษาลักษณะเปิดที่ทำให้เว็บมีค่าตั้งแต่แรก หากไม่มีกรอบงานทางเทคนิคและกฎหมายใหม่ สัญญาทางสังคมโดยนัยที่สร้างอินเทอร์เน็ตอาจต้องถูกแทนที่ด้วยข้อตกลงที่ชัดเจนและบังคับใช้ได้มากขึ้น