การเติบโตของปัญญาประดิษฐ์ได้นำมาซึ่งภาระที่ไม่คาดคิดสำหรับเจ้าของเว็บไซต์ทั่วโลก AI web crawlers ขณะนี้กำลังโจมตีเว็บไซต์ด้วยปริมาณการเข้าชมที่ไม่เคยมีมาก่อน ทำให้เกิดปัญหาด้านประสิทธิภาพและบังคับให้ผู้ดูแลเว็บไซต์หลายรายต้องใช้มาตรการป้องกันที่มีราคาแพงหรือยกเลิกการมีอยู่ออนไลน์ของพวกเขาไปเลย
การระเบิดของการเข้าชมคุกคามความเสถียรของเว็บไซต์
ตามข้อมูลของ Cloudflare , AI bots ขณะนี้คิดเป็น 30% ของการเข้าชมเว็บทั่วโลก โดย 80% ของกิจกรรม AI bot มาจาก data collection crawlers ซึ่งแตกต่างจาก search engine crawlers แบบดั้งเดิมที่ปฏิบัติตามแนวทางที่สุภาพ AI crawlers ใหม่เหล่านี้มีความก้าวร้าวมากกว่า พวกมันสามารถสร้างการเพิ่มขึ้นของการเข้าชมได้ถึง 10 ถึง 20 เท่าของระดับปกติภายในไม่กี่นาที ทำให้ทรัพยากรเซิร์ฟเวอร์ล้นหลามอย่างสมบูรณ์
ผลกระทบส่งผลกระทบหนักที่สุดต่อเว็บไซต์ขนาดเล็กที่ใช้บริการ shared hosting แม้แต่เว็บไซต์ที่ไม่ได้ถูกกำหนดเป้าหมายโดยตรงก็อาจได้รับผลกระทบเมื่อเว็บไซต์อื่นบนเซิร์ฟเวอร์เดียวกันถูกโจมตีโดย crawlers ผู้ดูแลระบบคนหนึ่งที่จัดการโครงสร้างพื้นฐาน boutique hosting อธิบายสถานการณ์ว่าใกล้เคียงกับการที่เว็บไซต์ถูก Slashdotted ทุกวัน
หมายเหตุ: Slashdotted หมายถึงเมื่อเว็บไซต์ถูกการเข้าชมอย่างกะทันหันจนล้นหลามจากการถูกนำเสนอบนเว็บไซต์ข่าวเทคโนโลยียอดนิยม
สstatisticsการจราจรของ AI Bot:
- 30% ของการจราจรเว็บทั่วโลกในปัจจุบันมาจากบอท (ข้อมูลจาก Cloudflare )
- 80% ของการจราจร AI bot ประกอบด้วยบอทดึงข้อมูล (รายงานจาก Fastly )
- การเพิ่มขึ้นของการจราจรสามารถสูงถึง 10-20 เท่าของระดับปกติภายในไม่กี่นาที
- Meta คิดเป็น 52% ของการจราจร AI searchbot , Google 23%, OpenAI 20%
ภาระทางการเงินบังคับให้ต้องเลือกอย่างยากลำบาก
ผลกระทบทางการเงินกำลังบังคับให้เจ้าของเว็บไซต์ต้องตัดสินใจที่ยากลำบาก ผู้สร้าง ProtonDB ซึ่งเป็นทรัพยากร Linux gaming ยอดนิยม เมื่อเร็ว ๆ นี้ต้องเผชิญกับการเพิ่มขึ้นของค่าใช้จ่ายรายเดือนที่ไม่คาดคิด 500 ดอลลาร์สหรัฐ เนื่องจากการเข้าชมของ AI crawler ใช้ข้อมูล 30GB ต่อวัน ซึ่งทำให้เว็บไซต์เกินขีดจำกัดแผน hosting 1TB และคุกคามความยั่งยืนของบริการฟรี
ผู้ดูแลเว็บไซต์หลายรายถูกผลักดันไปสู่โซลูชันที่แพงหรือการเปลี่ยนแปลงแพลตฟอร์มครั้งใหญ่ บางรายกำลังใช้ login walls ย้ายไปยัง hosting providers อื่น หรือแม้แต่พิจารณา paywalls สำหรับเนื้อหาที่เคยฟรี
ตัวอย่างผลกระทบทางการเงิน:
- ProtonDB : เพิ่มขึ้น 500 ดอลลาร์สหรัฐต่อเดือนเนื่องจากการเข้าถึงของ AI crawler 30GB ต่อวัน
- Netlify เรียกเก็บ 50 ดอลลาร์ต่อ 100GB เมื่อเกินขีดจำกัด 1TB
- ผู้ให้บริการโฮสติ้งรายเล็กรายงานการใช้ทรัพยากรสูงกว่าผู้เยียมชมที่เป็นมนุษย์ถึง 5,000 เท่า
- เว็บไซต์บางแห่งถูกบังคับให้อัปเกรดจาก shared hosting ไปเป็น dedicated resources
การป้องกันแบบดั้งเดิมพิสูจน์ว่าไม่มีประสิทธิภาพ
วิธีการเก่าในการควบคุม web crawlers กำลังล้มเหลวต่อ AI bots หลาย AI crawlers เพียงแค่เพิกเฉยต่อไฟล์ robots.txt ซึ่งเป็นวิธีดั้งเดิมที่เว็บไซต์สื่อสารความต้องการการ crawling กับ bots แม้แต่เทคโนโลยี anti-bot ที่ซับซ้อนและระบบ CAPTCHA ก็ยังต่อสู้กับ AI-powered crawlers ที่สามารถแก้ปัญหาเหล่านี้โดยอัตโนมัติ
Any web scraper ที่ scraping แบบ SEQUENCIALLY ที่ 1r/s จริง ๆ แล้วเป็น scraper ที่มีพฤติกรรมดีและไม่รบกวน แค่ว่า WP โดยทั่วไปแล้ว ** สำหรับประสิทธิภาพ
เจ้าของเว็บไซต์กำลังหันไปใช้มาตรการการบล็อกที่ก้าวร้าวมากขึ้น รวมถึงการกรองตาม IP และบริการเฉพาะเจาะจงเช่น Anubis AI crawler blocker อย่างไรก็ตาม สิ่งนี้สร้างการแข่งขันอาวุธที่ต่อเนื่องเมื่อ crawlers ปรับตัวโดยใช้ IP pools ที่ใหญ่ขึ้นและ fake user agents เพื่อปรากฏเหมือนผู้เยี่ยมชมทั่วไป
หมายเหตุ: 1r/s หมายถึงหนึ่งคำขอต่อวินาที ซึ่งถือว่าเป็นอัตราการ crawling ที่สมเหตุสมผล
มาตรการป้องกันและเครื่องมือ:
- วิธีการแบบดั้งเดิม: ไฟล์ robots.txt (มักถูกละเลยโดย AI crawlers)
- บริการป้องกัน: การป้องกันบอทของ Cloudflare , ตัวบล็อก AI crawler ของ Anubis
- โซลูชันทางเทคนิค: การกรอง IP , การบล็อกแบบ ASN , กฎ fail2ban
- ข้อจำกัดเนื้อหา: กำแพงล็อกอิน เพย์วอลล์ ความท้าทาย CAPTCHA
- การโฮสต์ทางเลือก: การย้ายไปยังแพลตฟอร์มที่มีแบนด์วิดท์ไม่จำกัด
ระบบนิเวศเว็บที่กว้างขึ้นมีความเสี่ยง
ปัญหา crawler ขยายไปเกินกว่าเว็บไซต์แต่ละแห่งไปสู่การคุกคามธรรมชาติแบบเปิดของอินเทอร์เน็ตเอง ซึ่งแตกต่างจาก search engine crawlers แบบดั้งเดิมที่สามารถขับเคลื่อนการเข้าชมกลับไปยังเว็บไซต์ผ่านผลการค้นหา AI crawlers สกัดเนื้อหาโดยไม่ให้ผลประโยชน์ตอบแทนใด ๆ กับเจ้าของเว็บไซต์ สิ่งนี้ทำลายระบบนิเวศเว็บแบบดั้งเดิมที่ผู้สร้างเนื้อหาสามารถสร้างรายได้จากงานของพวกเขาผ่านการเข้าชมจากการค้นหาและการโฆษณา
เมื่อมาตรการป้องกันกลายเป็นเรื่องธรรมดามากขึ้น เว็บกำลังกลายเป็นแบบแยกส่วนมากขึ้น ข้อมูลสำคัญกำลังถูกย้ายไปอยู่หลัง login walls หรือถูกลบออกไปทั้งหมด ซึ่งอาจสร้าง Balkanized Internet ที่การเข้าถึงความรู้ต้องการการชำระเงินหรือการลงทะเบียนในทุกย่างก้าว
สถานการณ์นี้เน้นย้ำถึงการเปลี่ยนแปลงพื้นฐานในวิธีการทำงานของเว็บ โดยบริษัท AI สกัดมูลค่ามหาศาลจากเนื้อหาในขณะที่ผู้สร้างต้นฉบับแบกรับต้นทุนโครงสร้างพื้นฐานและไม่ได้รับการชดเชยใด ๆ ในทางกลับกัน
อ้างอิง: Al web crawlers are destroying websites in their never-ending hunger for any and all content