เจ้าของเว็บไซต์ต่อสู้กับ AI Crawlers ด้วยระบบเรียกเก็บเงินใหม่

ทีมชุมชน BigGo
เจ้าของเว็บไซต์ต่อสู้กับ AI Crawlers ด้วยระบบเรียกเก็บเงินใหม่

เจ้าของเว็บไซต์รู้สึกหงุดหงิดมากขึ้นกับบริษัท AI ที่เก็บเกี่ยวข้อมูลเนื้อหาของพวกเขาโดยไม่ได้รับค่าตอบแทน ในขณะที่ให้ปริมาณการเข้าชมเว็บไซต์กลับมาเพียงเล็กน้อย ความตึงเครียดที่เพิ่มขึ้นนี้ได้จุดประกายให้เกิดมาตรการป้องกันและโมเดลธุรกิจใหม่ที่มุ่งปกป้องผู้สร้างเนื้อหาจากสิ่งที่หลายคนมองว่าเป็นการขุดเหมืองดิจิทัล

ปัญหานี้เกิดจากการเปลี่ยนแปลงพื้นฐานในวิธีที่ผู้คนบริโภคข้อมูลออนไลน์ เสิร์ชเอนจินแบบดั้งเดิมอย่าง Google สร้างความสำเร็จจากข้อตกลงง่าย ๆ คือพวกเขาจะทำดัชนีเนื้อหาเว็บไซต์และส่งผู้เข้าชมกลับไปยังผู้สร้าง ซึ่งจากนั้นสามารถสร้างรายได้จากการเข้าชมนั้นผ่านโฆษณาหรือการสมัครสมาชิก อย่างไรก็ตาม ระบบ AI กำลังทำลายโมเดลนี้โดยการให้คำตอบโดยตรงแก่ผู้ใช้โดยไม่ส่งพวกเขาไปยังแหล่งข้อมูลต้นฉบับ

ผลกระทบต่อการลดลงของ Traffic:

  • การค้นหาแบบดั้งเดิมของ Google: การสร้าง traffic พื้นฐาน
  • Google สมัยใหม่ที่มี AI Overviews: ยากขึ้น 10 เท่าในการสร้าง traffic ปริมาณเดียวกัน
  • ระบบของ OpenAI: ยากขึ้น 750 เท่าเมื่อเทียบกับ Google เดิม
  • ระบบของ Anthropic: ยากขึ้น 30,000 เท่าเมื่อเทียบกับ Google เดิม
การเรียกร้องให้ปกป้องเนื้อหาสร้างสรรค์: ปากกาขนนกเป็นสัญลักษณ์ของสิทธิของนักเขียนและผู้สร้างเนื้อหาในโลกดิจิทัล
การเรียกร้องให้ปกป้องเนื้อหาสร้างสรรค์: ปากกาขนนกเป็นสัญลักษณ์ของสิทธิของนักเขียนและผู้สร้างเนื้อหาในโลกดิจิทัล

กลยุทธ์การป้องกันทางเทคนิคเริ่มปรากฏ

ผู้ดูแลเว็บไซต์กำลังใช้มาตรการตอบโต้ที่ซับซ้อนมากขึ้นเพื่อต่อต้าน AI crawlers ที่ก้าวร้าว หลายคนกำลังใช้ระบบจำกัดอัตราที่จำกัดคำขอให้อยู่ในระดับที่เหมาะสม โดยทั่วไปประมาณ 10 คำขอต่อวินาทีสำหรับผู้ใช้ที่ไม่เปิดเผยตัวตน คนอื่น ๆ ใช้การบล็อกช่วง IP เพื่อปิดกั้นเครือข่ายทั้งหมดที่สร้างการเข้าชมมากเกินไป

ผู้ป้องกันที่มีความคิดสร้างสรรค์บางคนหันไปใช้กลยุทธ์ tarpit โดยเจตนาให้บริการข้อมูลด้วยความเร็วที่ช้ามากเพื่อสิ้นเปลืองทรัพยากรของ crawler ในขณะที่ลดต้นทุนเซิร์ฟเวอร์ของตนเองให้น้อยที่สุด honeypots เหล่านี้สามารถดักจับบอทที่ทำตัวไม่ดีในการดำเนินการที่ใช้เวลานานซึ่งใช้ทรัพยากรการคำนวณโดยไม่ให้ข้อมูลที่มีประโยชน์

Rate limiting หมายถึงการควบคุมจำนวนคำขอที่เซิร์ฟเวอร์ยอมรับจากแหล่งเดียวภายในช่วงเวลาที่กำหนด

กลยุทธ์การป้องกันทั่วไป:

  • การจำกัดอัตรา: จำกัดให้ผู้ใช้ที่ไม่ระบุตัวตนสามารถส่งคำขอได้ประมาณ 10 ครั้งต่อวินาที
  • การบล็อก IP Range: บล็อกช่วง network ทั้งหมดที่แสดงพฤติกรรมก้าวร้าว
  • ระบบ Tarpit: ส่งข้อมูลด้วยความเร็วที่ช้ามากเพื่อสิ้นเปลืองทรัพยากรของ crawler
  • Payment Gates: ตอบกลับด้วย HTTP 402 ที่ต้องการการชำระเงินสำหรับการเข้าถึงของ AI crawler
  • การรวม Fail2ban: การบล็อก IP อัตโนมัติหลังจากตรวจพบรูปแบบกิจกรรมที่น่าสงสัย

ระบบควบคุมการเข้าถึงแบบชำระเงิน

Cloudflare ได้นำเสนอแนวทางใหม่ที่กำหนดให้ AI crawlers ต้องจ่ายเงินสำหรับการเข้าถึงเนื้อหาหรือได้รับการตอบสนอง 402 Payment Required ระบบนี้อาศัย crawlers ที่ระบุตัวตนผ่าน request headers พิเศษและลงทะเบียนกับผู้ให้บริการ

อย่างไรก็ตาม ประสิทธิภาพของระบบดังกล่าวขึ้นอยู่กับความร่วมมือของ crawler เป็นอย่างมาก บริษัท AI ที่มีพฤติกรรมดีอาจปฏิบัติตามข้อกำหนดการชำระเงิน แต่มีความสงสัยเกี่ยวกับว่า scrapers ที่ก้าวร้าวจะเคารพโปรโตคอลใหม่เหล่านี้หรือไม่ ความท้าทายอยู่ที่การแยกแยะระหว่างผู้ใช้มนุษย์ที่ถูกต้องและ crawlers อัตโนมัติโดยไม่สร้างความยุ่งยากให้กับผู้เยี่ยมชมเว็บไซต์ทั่วไป

ระบบ Pay-Per-Crawl ของ Cloudflare:

  • การตอบสนองเริ่มต้น: HTTP 402 Payment Required
  • ต้องการการลงทะเบียน crawler กับ Cloudflare
  • ใช้ request headers เพื่อระบุ crawler ที่จ่ายเงิน
  • อาศัยระบบความไว้วางใจพร้อมกับการขู่ว่าจะบล็อกจากเนื้อหาทั้งหมดที่โฮสต์โดย Cloudflare
  • ความสำเร็จขึ้นอยู่กับอัลกอริทึมการตรวจจับบอทเพื่อแยกแยะ crawler จากมนุษย์

ความกังวลของชุมชนเกี่ยวกับการนำไปใช้

ชุมชนเทคนิคได้แสดงความกังวลหลายประการเกี่ยวกับโซลูชันที่เกิดขึ้นใหม่เหล่านี้ อัลกอริทึมการตรวจจับบอทไม่สมบูรณ์และอาจติดป้ายผู้ใช้ที่ถูกต้องว่าเป็น crawlers อย่างไม่ถูกต้อง ซึ่งอาจทำให้การท่องเว็บยากขึ้นสำหรับทุกคน นอกจากนี้ยังมีความกังวลว่าระบบเหล่านี้อาจรวมเว็บมากขึ้นภายใต้ผู้ให้บริการโฮสติ้งรายใหญ่อย่าง Cloudflare

สิ่งนี้จะเกิดขึ้นเหมือนกับ 'do not track' header อย่างแม่นยำ คนเลวจะสร้างการแข่งขันด้านอาวุธที่ทำให้ใครก็ตามที่เคารพมันกลายเป็นคนโง่

ผู้สังเกตการณ์หลายคนสังเกตว่าบริษัทที่มีทรัพยากรเพียงพอยังสามารถหลีกเลี่ยงข้อจำกัดผ่านบริการ proxy ได้ ในขณะที่องค์กรขนาดเล็กและนักวิจัยรายบุคคลอาจถูกบล็อกอย่างไม่ยุติธรรม สิ่งนี้อาจสร้างอินเทอร์เน็ตสองชั้นที่มีเพียงหน่วยงานที่ได้รับการสนับสนุนทางการเงินดีเท่านั้นที่สามารถเข้าถึงข้อมูลเว็บที่ครอบคลุมได้

ผลกระทบทางเศรษฐกิจต่อผู้สร้างเนื้อหา

การเปลี่ยนไปสู่การบริโภคข้อมูลที่ขับเคลื่อนด้วย AI ได้ลดการเข้าชมไปยังแหล่งเนื้อหาต้นฉบับอย่างมาก การประมาณการบางส่วนแสดงให้เห็นว่าการได้รับการเข้าชมผ่านระบบ AI สมัยใหม่ยากกว่าผ่านเสิร์ชเอนจินแบบดั้งเดิมหลายร้อยหรือแม้กระทั่งหลายพันเท่า สิ่งนี้ทำให้ผู้สร้างเนื้อหาเกือบเป็นไปไม่ได้ที่จะรักษาการดำเนินงานของพวกเขาผ่านโมเดลโฆษณาหรือการสมัครสมาชิกแบบดั้งเดิม

เจ้าของเว็บไซต์กำลังปรับตัวโดยมุ่งเน้นไปที่การสร้างชุมชนและเนื้อหาแบบโต้ตอบที่ระบบ AI จำลองได้ยากกว่า แทนที่จะกำหนดเป้าหมายไปที่คำถามข้อมูลทั่วไป หลายคนกำลังหันไปสู่กลุ่มผู้ชมเฉพาะและเนื้อหาเฉพาะทางที่ให้คุณค่าเฉพาะเจาะจงเกินกว่าที่ AI สามารถสังเคราะห์ได้

การต่อสู้ที่กำลังดำเนินอยู่ระหว่างผู้สร้างเนื้อหาและ AI crawlers แสดงถึงการเปลี่ยนแปลงพื้นฐานในวิธีการทำงานของเศรษฐกิจอินเทอร์เน็ต โดยทั้งสองฝ่ายพัฒนาเครื่องมือที่ซับซ้อนมากขึ้นเพื่อปกป้องผลประโยชน์ของตน

อ้างอิง: Content Independence Day: no AI crawl without compensation!