สถาบันวัฒนธรรมทั่วโลกกำลังเผชิญกับวิกฤตดิจิทัลที่ไม่เคยมีมาก่อน พิพิธภัณฑ์ ห้องสมุด และหอจดหมายเหตุรายงานว่าเว็บไซต์ของพวกเขากำลังถูกบอทฝึก AI ที่ดูดข้อมูลอย่างรุนแรงจนทำให้เกิดการหยุดชะงักของบริการและค่าใช้จ่ายเซิร์ฟเวอร์ที่ไม่ยั่งยืน
การเพิ่มขึ้นนี้เริ่มต้นอย่างเงียบๆ แต่ได้ถึงระดับที่น่าตกใจ สถาบันกว่า 90% ที่ได้รับการสำรวจพบบอทที่ดูดข้อมูลอย่างรุนแรงเหล่านี้หลายครั้งต่อสัปดาห์ โดยหลายแห่งประสบกับการหยุดทำงานของเว็บไซต์อย่างสมบูรณ์
ผลกระทบของ Open Access Repository:
- 66 repositories ที่สำรวจโดย COAR
- มากกว่า 90% ประสบปัญหาจาก aggressive bots
- การโจมตีเกิดขึ้นมากกว่าสัปดาหละครั้ง
- มักทำให้เกิดการทำงานช้าลงและการหยุดให้บริการ
การป้องกันเว็บแบบดั้งเดิมล้มเหลว
ไฟล์ robots.txt มาตรฐาน - เอกสารข้อความธรรมดาที่ขอร้องให้เว็บครอลเลอร์เคารพขอบเขตบางอย่างอย่างสุภาพ - ได้กลายเป็นสิ่งที่ไร้ประโยชน์โดยพื้นฐานต่อการเก็บเกี่ยวข้อมูล AI สมัยใหม่ บอทเหล่านี้ไม่สนใจแนวทางปฏิบัติเลย หรือทำงานอย่างรุนแรงจนการปฏิบัติตามด้วยความสมัครใจไม่มีความหมายอะไร
สถาบันบางแห่งหันไปใช้บริการป้องกันบอทเชิงพาณิชย์จากบริษัทอย่าง AWS และ Cloudflare แต่โซลูชันเหล่านี้สร้างปัญหาใหม่ การเพิ่มข้อกำหนดการเข้าสู่ระบบทำลายจุดประสงค์ของการให้การเข้าถึงสาธารณะฟรีต่อคอลเลกชันวัฒนธรรม ในขณะที่ไฟร์วอลล์ที่ซับซ้อนต้องการความเชี่ยวชาญทางเทคนิคและต้นทุนอย่างต่อเนื่องที่หลายสถาบันไม่สามารถรับได้
Robots.txt: ไฟล์ข้อความมาตรฐานที่เว็บไซต์ใช้สื่อสารกับเว็บครอลเลอร์เกี่ยวกับส่วนไหนของไซต์ที่ควรหรือไม่ควรเข้าถึง
ต้นทุนที่ซ่อนอยู่ของความก้าวหน้า AI
สิ่งที่ทำให้สถานการณ์นี้ท้าทายเป็นพิเศษคือลักษณะแอบแฝงของปัญหา หลายสถาบันไม่รู้ว่าพวกเขากำลังถูกโจมตีจนกว่าเว็บไซต์จะเริ่มล่ม บอทเหล่านี้ใช้แบนด์วิดท์และทรัพยากรเซิร์ฟเวอร์จำนวนมหาศาล สร้างต้นทุนที่องค์กรวัฒนธรรม - ซึ่งโดยทั่วไปดำเนินงานด้วยงบประมาณที่จำกัด - ไม่สามารถรับได้
ชุมชนกำลังสำรวจโซลูชันทางเทคนิคที่สร้างสรรค์ รวมถึงระบบ proof-of-work ที่ต้องการความพยายามในการคำนวณก่อนเข้าถึงเนื้อหา และการจำกัดอัตราตาม cookie ที่ติดตามและควบคุมผู้เยี่ยมชมซ้ำ อย่างไรก็ตาม วิธีการเหล่านี้อาจให้การบรรเทาเพียงชั่วคราวเมื่อผู้ดำเนินการบอทปรับเทคนิคของพวกเขา
ผลการสำรวจจากสถาบันทางวัฒนธรรม:
- มีการสำรวจองค์กร 43 แห่งโดย GLAM-E Lab
- 39 จาก 43 องค์กรประสบปัญหาการเพิ่มขึ้นของ traffic เมื่อเร็ว ๆ นี้
- 27 องค์กรระบุว่าการเพิ่มขึ้นเกิดจาก AI training bots โดยเฉพาะ
- อีก 7 องค์กรสงสัยว่าเกี่ยวข้องกับ bot
การเปลี่ยนแปลงพื้นฐานในทราฟฟิกเว็บ
สถานการณ์นี้แสดงถึงการเปลี่ยนแปลงอย่างมากในวิธีการทำงานของอินเทอร์เน็ต รูปแบบทราฟฟิกเว็บแบบดั้งเดิมสันนิษฐานว่าผู้เยี่ยมชมส่วนใหญ่เป็นมนุษย์ที่เรียกดูเนื้อหาเป็นครั้งคราว ตอนนี้ระบบอัตโนมัติกำลังดาวน์โหลดคอลเลกชันทั้งหมดอย่างเป็นระบบ ทำลายโมเดลเศรษฐกิจที่ทำให้การเข้าถึงออนไลน์ฟรีเป็นไปได้
สถาบันวัฒนธรรมที่โฮสต์คอลเลกชันออนไลน์ไม่มีทรัพยากรที่จะเพิ่มเซิร์ฟเวอร์ ติดตั้งไฟร์วอลล์ที่ซับซ้อนมากขึ้น และจ้างวิศวกรปฏิบัติการมากขึ้นอย่างต่อเนื่องไปเรื่อยๆ
ปัญหานี้ขยายไปเกินกว่าแค่บริษัท AI ขนาดใหญ่ เมื่อฮาร์ดแวร์ AI มีราคาถูกลง นักพัฒนาแต่ละคนและโปรเจกต์เล็กๆ กำลังสร้างโมเดลของตัวเองมากขึ้น ทำให้เกิดการเพิ่มขึ้นของกิจกรรมขูดข้อมูลทั่วเว็บ
ไทม์ไลน์ของกิจกรรมบอท:
- สถาบันบางแห่งสังเกตเห็นการเพิ่มขึ้นตั้งแต่ปี 2021
- สถาบันอื่นๆ เพิ่งเริ่มประสบปัญหาในปี 2024
- การเพิ่มขึ้นของปัญหามักไม่ได้รับการสังเกตจนกว่าเว็บไซต์จะล่ม
- การเพิ่มขึ้นของการเข้าชมเกิดจากการเติบโตของ AI หลังจาก ChatGPT
มองไปข้างหน้า
วิกฤตนี้เน้นย้ำคำถามที่กว้างขึ้นเกี่ยวกับอนาคตของเนื้อหาออนไลน์ฟรี หากเว็บไซต์ไม่สามารถรับภาระในการให้บริการทั้งผู้เยี่ยมชมที่เป็นมนุษย์และบอทฝึก AI หลายแห่งอาจถูกบังคับให้อยู่หลัง paywall หรือปิดตัวลงทั้งหมด ซึ่งอาจจำกัดการเข้าถึงสาธารณะต่อมรดกทางวัฒนธรรมและทรัพยากรการศึกษา
โซลูชันน่าจะต้องการให้บริษัท AI พัฒนาแนวทางการรวบรวมข้อมูลที่ยั่งยืนมากขึ้นที่ไม่เป็นภาระต่อเว็บไซต์ที่พวกเขาพึ่งพา หากไม่มีความร่วมมือดังกล่าว โมเดลปัจจุบันของการเข้าถึงคอลเลกชันวัฒนธรรมแบบฟรีและเปิดอาจกลายเป็นสิ่งที่เป็นไปไม่ได้ทางเศรษฐกิจในการรักษาไว้
อ้างอิง: Bots are overwhelming websites with their hunger for AI data