บอท AI ขูดข้อมูลทำเว็บไซต์สถาบันวัฒนธรรมล่มเมื่อทราฟฟิกพุ่ง 90%

ทีมบรรณาธิการ BigGo
บอท AI ขูดข้อมูลทำเว็บไซต์สถาบันวัฒนธรรมล่มเมื่อทราฟฟิกพุ่ง 90%

สถาบันวัฒนธรรมทั่วโลกกำลังเผชิญกับวิกฤตดิจิทัลที่ไม่เคยมีมาก่อน พิพิธภัณฑ์ ห้องสมุด และหอจดหมายเหตุรายงานว่าเว็บไซต์ของพวกเขากำลังถูกบอทฝึก AI ที่ดูดข้อมูลอย่างรุนแรงจนทำให้เกิดการหยุดชะงักของบริการและค่าใช้จ่ายเซิร์ฟเวอร์ที่ไม่ยั่งยืน

การเพิ่มขึ้นนี้เริ่มต้นอย่างเงียบๆ แต่ได้ถึงระดับที่น่าตกใจ สถาบันกว่า 90% ที่ได้รับการสำรวจพบบอทที่ดูดข้อมูลอย่างรุนแรงเหล่านี้หลายครั้งต่อสัปดาห์ โดยหลายแห่งประสบกับการหยุดทำงานของเว็บไซต์อย่างสมบูรณ์

ผลกระทบของ Open Access Repository:

  • 66 repositories ที่สำรวจโดย COAR
  • มากกว่า 90% ประสบปัญหาจาก aggressive bots
  • การโจมตีเกิดขึ้นมากกว่าสัปดาหละครั้ง
  • มักทำให้เกิดการทำงานช้าลงและการหยุดให้บริการ

การป้องกันเว็บแบบดั้งเดิมล้มเหลว

ไฟล์ robots.txt มาตรฐาน - เอกสารข้อความธรรมดาที่ขอร้องให้เว็บครอลเลอร์เคารพขอบเขตบางอย่างอย่างสุภาพ - ได้กลายเป็นสิ่งที่ไร้ประโยชน์โดยพื้นฐานต่อการเก็บเกี่ยวข้อมูล AI สมัยใหม่ บอทเหล่านี้ไม่สนใจแนวทางปฏิบัติเลย หรือทำงานอย่างรุนแรงจนการปฏิบัติตามด้วยความสมัครใจไม่มีความหมายอะไร

สถาบันบางแห่งหันไปใช้บริการป้องกันบอทเชิงพาณิชย์จากบริษัทอย่าง AWS และ Cloudflare แต่โซลูชันเหล่านี้สร้างปัญหาใหม่ การเพิ่มข้อกำหนดการเข้าสู่ระบบทำลายจุดประสงค์ของการให้การเข้าถึงสาธารณะฟรีต่อคอลเลกชันวัฒนธรรม ในขณะที่ไฟร์วอลล์ที่ซับซ้อนต้องการความเชี่ยวชาญทางเทคนิคและต้นทุนอย่างต่อเนื่องที่หลายสถาบันไม่สามารถรับได้

Robots.txt: ไฟล์ข้อความมาตรฐานที่เว็บไซต์ใช้สื่อสารกับเว็บครอลเลอร์เกี่ยวกับส่วนไหนของไซต์ที่ควรหรือไม่ควรเข้าถึง

ต้นทุนที่ซ่อนอยู่ของความก้าวหน้า AI

สิ่งที่ทำให้สถานการณ์นี้ท้าทายเป็นพิเศษคือลักษณะแอบแฝงของปัญหา หลายสถาบันไม่รู้ว่าพวกเขากำลังถูกโจมตีจนกว่าเว็บไซต์จะเริ่มล่ม บอทเหล่านี้ใช้แบนด์วิดท์และทรัพยากรเซิร์ฟเวอร์จำนวนมหาศาล สร้างต้นทุนที่องค์กรวัฒนธรรม - ซึ่งโดยทั่วไปดำเนินงานด้วยงบประมาณที่จำกัด - ไม่สามารถรับได้

ชุมชนกำลังสำรวจโซลูชันทางเทคนิคที่สร้างสรรค์ รวมถึงระบบ proof-of-work ที่ต้องการความพยายามในการคำนวณก่อนเข้าถึงเนื้อหา และการจำกัดอัตราตาม cookie ที่ติดตามและควบคุมผู้เยี่ยมชมซ้ำ อย่างไรก็ตาม วิธีการเหล่านี้อาจให้การบรรเทาเพียงชั่วคราวเมื่อผู้ดำเนินการบอทปรับเทคนิคของพวกเขา

ผลการสำรวจจากสถาบันทางวัฒนธรรม:

  • มีการสำรวจองค์กร 43 แห่งโดย GLAM-E Lab
  • 39 จาก 43 องค์กรประสบปัญหาการเพิ่มขึ้นของ traffic เมื่อเร็ว ๆ นี้
  • 27 องค์กรระบุว่าการเพิ่มขึ้นเกิดจาก AI training bots โดยเฉพาะ
  • อีก 7 องค์กรสงสัยว่าเกี่ยวข้องกับ bot

การเปลี่ยนแปลงพื้นฐานในทราฟฟิกเว็บ

สถานการณ์นี้แสดงถึงการเปลี่ยนแปลงอย่างมากในวิธีการทำงานของอินเทอร์เน็ต รูปแบบทราฟฟิกเว็บแบบดั้งเดิมสันนิษฐานว่าผู้เยี่ยมชมส่วนใหญ่เป็นมนุษย์ที่เรียกดูเนื้อหาเป็นครั้งคราว ตอนนี้ระบบอัตโนมัติกำลังดาวน์โหลดคอลเลกชันทั้งหมดอย่างเป็นระบบ ทำลายโมเดลเศรษฐกิจที่ทำให้การเข้าถึงออนไลน์ฟรีเป็นไปได้

สถาบันวัฒนธรรมที่โฮสต์คอลเลกชันออนไลน์ไม่มีทรัพยากรที่จะเพิ่มเซิร์ฟเวอร์ ติดตั้งไฟร์วอลล์ที่ซับซ้อนมากขึ้น และจ้างวิศวกรปฏิบัติการมากขึ้นอย่างต่อเนื่องไปเรื่อยๆ

ปัญหานี้ขยายไปเกินกว่าแค่บริษัท AI ขนาดใหญ่ เมื่อฮาร์ดแวร์ AI มีราคาถูกลง นักพัฒนาแต่ละคนและโปรเจกต์เล็กๆ กำลังสร้างโมเดลของตัวเองมากขึ้น ทำให้เกิดการเพิ่มขึ้นของกิจกรรมขูดข้อมูลทั่วเว็บ

ไทม์ไลน์ของกิจกรรมบอท:

  • สถาบันบางแห่งสังเกตเห็นการเพิ่มขึ้นตั้งแต่ปี 2021
  • สถาบันอื่นๆ เพิ่งเริ่มประสบปัญหาในปี 2024
  • การเพิ่มขึ้นของปัญหามักไม่ได้รับการสังเกตจนกว่าเว็บไซต์จะล่ม
  • การเพิ่มขึ้นของการเข้าชมเกิดจากการเติบโตของ AI หลังจาก ChatGPT

มองไปข้างหน้า

วิกฤตนี้เน้นย้ำคำถามที่กว้างขึ้นเกี่ยวกับอนาคตของเนื้อหาออนไลน์ฟรี หากเว็บไซต์ไม่สามารถรับภาระในการให้บริการทั้งผู้เยี่ยมชมที่เป็นมนุษย์และบอทฝึก AI หลายแห่งอาจถูกบังคับให้อยู่หลัง paywall หรือปิดตัวลงทั้งหมด ซึ่งอาจจำกัดการเข้าถึงสาธารณะต่อมรดกทางวัฒนธรรมและทรัพยากรการศึกษา

โซลูชันน่าจะต้องการให้บริษัท AI พัฒนาแนวทางการรวบรวมข้อมูลที่ยั่งยืนมากขึ้นที่ไม่เป็นภาระต่อเว็บไซต์ที่พวกเขาพึ่งพา หากไม่มีความร่วมมือดังกล่าว โมเดลปัจจุบันของการเข้าถึงคอลเลกชันวัฒนธรรมแบบฟรีและเปิดอาจกลายเป็นสิ่งที่เป็นไปไม่ได้ทางเศรษฐกิจในการรักษาไว้

อ้างอิง: Bots are overwhelming websites with their hunger for AI data