AI Web Crawlers ทำให้เว็บไซต์ขนาดเล็กล้นด้วยการเข้าชมที่เพิ่มขึ้นถึง 20 เท่าของระดับปกติ

ทีมชุมชน BigGo
AI Web Crawlers ทำให้เว็บไซต์ขนาดเล็กล้นด้วยการเข้าชมที่เพิ่มขึ้นถึง 20 เท่าของระดับปกติ

การเติบโตของปัญญาประดิษฐ์ได้นำมาซึ่งภาระที่ไม่คาดคิดสำหรับเจ้าของเว็บไซต์ทั่วโลก AI web crawlers ขณะนี้กำลังโจมตีเว็บไซต์ด้วยปริมาณการเข้าชมที่ไม่เคยมีมาก่อน ทำให้เกิดปัญหาด้านประสิทธิภาพและบังคับให้ผู้ดูแลเว็บไซต์หลายรายต้องใช้มาตรการป้องกันที่มีราคาแพงหรือยกเลิกการมีอยู่ออนไลน์ของพวกเขาไปเลย

การระเบิดของการเข้าชมคุกคามความเสถียรของเว็บไซต์

ตามข้อมูลของ Cloudflare , AI bots ขณะนี้คิดเป็น 30% ของการเข้าชมเว็บทั่วโลก โดย 80% ของกิจกรรม AI bot มาจาก data collection crawlers ซึ่งแตกต่างจาก search engine crawlers แบบดั้งเดิมที่ปฏิบัติตามแนวทางที่สุภาพ AI crawlers ใหม่เหล่านี้มีความก้าวร้าวมากกว่า พวกมันสามารถสร้างการเพิ่มขึ้นของการเข้าชมได้ถึง 10 ถึง 20 เท่าของระดับปกติภายในไม่กี่นาที ทำให้ทรัพยากรเซิร์ฟเวอร์ล้นหลามอย่างสมบูรณ์

ผลกระทบส่งผลกระทบหนักที่สุดต่อเว็บไซต์ขนาดเล็กที่ใช้บริการ shared hosting แม้แต่เว็บไซต์ที่ไม่ได้ถูกกำหนดเป้าหมายโดยตรงก็อาจได้รับผลกระทบเมื่อเว็บไซต์อื่นบนเซิร์ฟเวอร์เดียวกันถูกโจมตีโดย crawlers ผู้ดูแลระบบคนหนึ่งที่จัดการโครงสร้างพื้นฐาน boutique hosting อธิบายสถานการณ์ว่าใกล้เคียงกับการที่เว็บไซต์ถูก Slashdotted ทุกวัน

หมายเหตุ: Slashdotted หมายถึงเมื่อเว็บไซต์ถูกการเข้าชมอย่างกะทันหันจนล้นหลามจากการถูกนำเสนอบนเว็บไซต์ข่าวเทคโนโลยียอดนิยม

สstatisticsการจราจรของ AI Bot:

  • 30% ของการจราจรเว็บทั่วโลกในปัจจุบันมาจากบอท (ข้อมูลจาก Cloudflare )
  • 80% ของการจราจร AI bot ประกอบด้วยบอทดึงข้อมูล (รายงานจาก Fastly )
  • การเพิ่มขึ้นของการจราจรสามารถสูงถึง 10-20 เท่าของระดับปกติภายในไม่กี่นาที
  • Meta คิดเป็น 52% ของการจราจร AI searchbot , Google 23%, OpenAI 20%

ภาระทางการเงินบังคับให้ต้องเลือกอย่างยากลำบาก

ผลกระทบทางการเงินกำลังบังคับให้เจ้าของเว็บไซต์ต้องตัดสินใจที่ยากลำบาก ผู้สร้าง ProtonDB ซึ่งเป็นทรัพยากร Linux gaming ยอดนิยม เมื่อเร็ว ๆ นี้ต้องเผชิญกับการเพิ่มขึ้นของค่าใช้จ่ายรายเดือนที่ไม่คาดคิด 500 ดอลลาร์สหรัฐ เนื่องจากการเข้าชมของ AI crawler ใช้ข้อมูล 30GB ต่อวัน ซึ่งทำให้เว็บไซต์เกินขีดจำกัดแผน hosting 1TB และคุกคามความยั่งยืนของบริการฟรี

ผู้ดูแลเว็บไซต์หลายรายถูกผลักดันไปสู่โซลูชันที่แพงหรือการเปลี่ยนแปลงแพลตฟอร์มครั้งใหญ่ บางรายกำลังใช้ login walls ย้ายไปยัง hosting providers อื่น หรือแม้แต่พิจารณา paywalls สำหรับเนื้อหาที่เคยฟรี

ตัวอย่างผลกระทบทางการเงิน:

  • ProtonDB : เพิ่มขึ้น 500 ดอลลาร์สหรัฐต่อเดือนเนื่องจากการเข้าถึงของ AI crawler 30GB ต่อวัน
  • Netlify เรียกเก็บ 50 ดอลลาร์ต่อ 100GB เมื่อเกินขีดจำกัด 1TB
  • ผู้ให้บริการโฮสติ้งรายเล็กรายงานการใช้ทรัพยากรสูงกว่าผู้เยียมชมที่เป็นมนุษย์ถึง 5,000 เท่า
  • เว็บไซต์บางแห่งถูกบังคับให้อัปเกรดจาก shared hosting ไปเป็น dedicated resources

การป้องกันแบบดั้งเดิมพิสูจน์ว่าไม่มีประสิทธิภาพ

วิธีการเก่าในการควบคุม web crawlers กำลังล้มเหลวต่อ AI bots หลาย AI crawlers เพียงแค่เพิกเฉยต่อไฟล์ robots.txt ซึ่งเป็นวิธีดั้งเดิมที่เว็บไซต์สื่อสารความต้องการการ crawling กับ bots แม้แต่เทคโนโลยี anti-bot ที่ซับซ้อนและระบบ CAPTCHA ก็ยังต่อสู้กับ AI-powered crawlers ที่สามารถแก้ปัญหาเหล่านี้โดยอัตโนมัติ

Any web scraper ที่ scraping แบบ SEQUENCIALLY ที่ 1r/s จริง ๆ แล้วเป็น scraper ที่มีพฤติกรรมดีและไม่รบกวน แค่ว่า WP โดยทั่วไปแล้ว ** สำหรับประสิทธิภาพ

เจ้าของเว็บไซต์กำลังหันไปใช้มาตรการการบล็อกที่ก้าวร้าวมากขึ้น รวมถึงการกรองตาม IP และบริการเฉพาะเจาะจงเช่น Anubis AI crawler blocker อย่างไรก็ตาม สิ่งนี้สร้างการแข่งขันอาวุธที่ต่อเนื่องเมื่อ crawlers ปรับตัวโดยใช้ IP pools ที่ใหญ่ขึ้นและ fake user agents เพื่อปรากฏเหมือนผู้เยี่ยมชมทั่วไป

หมายเหตุ: 1r/s หมายถึงหนึ่งคำขอต่อวินาที ซึ่งถือว่าเป็นอัตราการ crawling ที่สมเหตุสมผล

มาตรการป้องกันและเครื่องมือ:

  • วิธีการแบบดั้งเดิม: ไฟล์ robots.txt (มักถูกละเลยโดย AI crawlers)
  • บริการป้องกัน: การป้องกันบอทของ Cloudflare , ตัวบล็อก AI crawler ของ Anubis
  • โซลูชันทางเทคนิค: การกรอง IP , การบล็อกแบบ ASN , กฎ fail2ban
  • ข้อจำกัดเนื้อหา: กำแพงล็อกอิน เพย์วอลล์ ความท้าทาย CAPTCHA
  • การโฮสต์ทางเลือก: การย้ายไปยังแพลตฟอร์มที่มีแบนด์วิดท์ไม่จำกัด

ระบบนิเวศเว็บที่กว้างขึ้นมีความเสี่ยง

ปัญหา crawler ขยายไปเกินกว่าเว็บไซต์แต่ละแห่งไปสู่การคุกคามธรรมชาติแบบเปิดของอินเทอร์เน็ตเอง ซึ่งแตกต่างจาก search engine crawlers แบบดั้งเดิมที่สามารถขับเคลื่อนการเข้าชมกลับไปยังเว็บไซต์ผ่านผลการค้นหา AI crawlers สกัดเนื้อหาโดยไม่ให้ผลประโยชน์ตอบแทนใด ๆ กับเจ้าของเว็บไซต์ สิ่งนี้ทำลายระบบนิเวศเว็บแบบดั้งเดิมที่ผู้สร้างเนื้อหาสามารถสร้างรายได้จากงานของพวกเขาผ่านการเข้าชมจากการค้นหาและการโฆษณา

เมื่อมาตรการป้องกันกลายเป็นเรื่องธรรมดามากขึ้น เว็บกำลังกลายเป็นแบบแยกส่วนมากขึ้น ข้อมูลสำคัญกำลังถูกย้ายไปอยู่หลัง login walls หรือถูกลบออกไปทั้งหมด ซึ่งอาจสร้าง Balkanized Internet ที่การเข้าถึงความรู้ต้องการการชำระเงินหรือการลงทะเบียนในทุกย่างก้าว

สถานการณ์นี้เน้นย้ำถึงการเปลี่ยนแปลงพื้นฐานในวิธีการทำงานของเว็บ โดยบริษัท AI สกัดมูลค่ามหาศาลจากเนื้อหาในขณะที่ผู้สร้างต้นฉบับแบกรับต้นทุนโครงสร้างพื้นฐานและไม่ได้รับการชดเชยใด ๆ ในทางกลับกัน

อ้างอิง: Al web crawlers are destroying websites in their never-ending hunger for any and all content