ปริมาณการเข้าถึงของ AI Bot ทำให้เว็บไซต์เล็กๆ ล้มเหลว ขณะที่ Cloudflare เสนอแนวทาง "Signed Agents" ที่ก่อให้เกิดการถกเถียง

ทีมชุมชน BigGo
ปริมาณการเข้าถึงของ AI Bot ทำให้เว็บไซต์เล็กๆ ล้มเหลว ขณะที่ Cloudflare เสนอแนวทาง "Signed Agents" ที่ก่อให้เกิดการถกเถียง

เจ้าของเว็บไซต์ขนาดเล็กกำลังเผชิญกับวิกฤตที่เพิ่มมากขึ้น เนื่องจาก AI crawler ที่ก้าวร้าวจากบริษัทใหญ่ๆ อย่าง OpenAI , Meta และ Perplexity กินทรัพยากรเซิร์ฟเวอร์จำนวนมหาศาล บอทเหล่านี้มักจะไม่สนใจกฎมารยาทเว็บแบบดั้งเดิม เช่น ไฟล์ robots.txt และทำให้เว็บไซต์ล้นหลามด้วยการร้องขอหลายร้อยครั้งต่อวินาที ทำให้ผู้ดำเนินการบางรายต้องปิดเนื้อหาของตนออฟไลน์ทั้งหมด

ปัญหานี้ร้ายแรงมากจนเจ้าของเว็บไซต์รายหนึ่งรายงานว่าบอทเข้าถึงข้อมูล 1.6 เทราไบต์ในเดือนเดียว โดยมีการร้องขอ 1.3 ล้านครั้งต่อวัน อีกรายหนึ่งอธิบายว่า AI bot สร้างการร้องขอ 200-300 ครั้งต่อวินาที ขณะที่หลอน URL อย่างบ้าคลั่งบนเว็บไซต์การตลาดขนาดเล็ก ซึ่งแตกต่างจาก crawler ของเสิร์ชเอนจินที่มีมารยาทจาก Google หรือ Bing ที่เคารพขีดจำกัดอัตราและความต้องการของเว็บไซต์ AI scraper เหล่านี้มักจะเปลี่ยน user agent และที่อยู่ IP เพื่อหลีกเลี่ยงการบล็อก

ตัวอย่างผลกระทบจากการเข้าถึงของ AI Bot:

  • ข้อมูล 1.6 TB ถูกเข้าถึงในหนึ่งเดือนโดย bot ในเว็บไซต์เดียว
  • คำขอจาก bot 1.3 ล้านครั้งต่อวัน
  • 200-300 คำขอต่อวินาทีในเว็บไซต์การตลาดขนาดเล็ก
  • ค่าใช้จ่ายการถ่ายโอนข้อมูลของ AWS สามารถสูงถึง 30,000 ดอลลาร์สหรัฐฯ สำหรับการใช้งาน 330TB ต่อเดือน
  • เว็บไซต์บางแห่งถูกบังคับให้ออฟไลน์เนื่องจากค่าใช้จ่าย bandwidth เกิน 50-100 ดอลลาร์สหรัฐฯ ต่อเดือน

แนวทางแก้ไขที่เสนอโดย Cloudflare ก่อให้เกิดการถกเถียง

เพื่อตอบสนองต่อวิกฤตนี้ Cloudflare ได้แนะนำระบบ signed agents ที่จะสร้างรายชื่ออนุญาตของ AI bot ที่ได้รับการอนุมัติ ภายใต้ข้อเสนอนี้ บริษัท AI จะต้องลงทะเบียนกับ Cloudflare และได้รับลายเซ็นเข้ารหัสเพื่อเข้าถึงเว็บไซต์ที่เข้าร่วม เจ้าของเว็บไซต์จะสามารถเลือกที่จะบล็อกการเข้าถึงของบอทที่ไม่ได้รับการตรวจสอบทั้งหมด ขณะที่อนุญาตให้ตัวแทนที่ได้รับอนุมัติผ่านได้

อย่างไรก็ตาม แนวทางแก้ไขนี้ได้รับการวิพากษ์วิจารณ์อย่างรุนแรงจากนักพัฒนาและผู้สนับสนุนเว็บเปิด ที่โต้แย้งว่าสร้างแบบอย่างที่อันตราย นักวิจารณ์กังวลว่าการกำหนดให้ลงทะเบียนกับบริษัทเดียวเพื่อเข้าถึงเว็บไซต์นั้นเปลี่ยนแปลงธรรมชาติของอินเทอร์เน็ตเปิดโดยพื้นฐาน พวกเขาชี้ไปที่ตัวอย่างในอดีตที่การควบคุมแบบรวมศูนย์นำไปสู่ความซบเซาของนวัตกรรม โดยเปรียบเทียบกับความพยายามที่ล้มเหลวของ Microsoft ในการควบคุมมาตรฐานเว็บในทศวรรษ 1990

ความท้าทายทางเทคนิคเกินกว่าการจำกัดอัตราง่ายๆ

ขนาดของปัญหาขยายเกินกว่าที่แนวทางแก้ไขแบบดั้งเดิมจะจัดการได้ การจำกัดอัตราพื้นฐานตามที่อยู่ IP พิสูจน์แล้วว่าไม่มีประสิทธิภาพเมื่อบริษัท AI ใช้ proxy ที่อยู่อาศัยแบบหมุนเวียนและเครือข่ายกระจายที่ครอบคลุมที่อยู่ IP หลายพันแห่ง แม้แต่ระบบแคชที่ซับซ้อนก็ยังดิ้นรนเมื่อบอทไม่สนใจ cache header และดึงเนื้อหาเดิมซ้ำๆ

ค่าใช้จ่ายแบนด์วิดท์เพียงอย่างเดียวก็บังคับให้ผู้ดำเนินการเว็บไซต์ต้องหาการป้องกัน ผู้ให้บริการคลาวด์อย่าง AWS เรียกเก็บค่าธรรมเนียมจำนวนมากสำหรับการถ่ายโอนข้อมูล โดยมีการประเมินบางส่วนแนะนำว่าการโจมตีบอทที่ประสานงานกันอาจสร้างค่าใช้จ่ายที่ไม่คาดคิดหลายหมื่นดอลลาร์สหรัฐ สำหรับบล็อกเกอร์รายเล็กและผู้สร้างเนื้อหา ค่าใช้จ่ายเหล่านี้อาจทำให้การโฮสต์เป็นไปไม่ได้ทางการเงิน

ชุมชนแสวงหาทางเลือกแบบเปิด

หลายคนในชุมชนเทคนิคกำลังผลักดันแนวทางแก้ไขแบบกระจายอำนาจที่ไม่พึ่งพาผู้เฝ้าประตูเพียงรายเดียว ทางเลือกที่เสนอรวมถึงห่วงโซ่การมอบหมายเข้ารหัสที่เว็บไซต์สามารถตรวจสอบความถูกต้องของบอทผ่านบันทึก DNS และโครงสร้างพื้นฐานกุญแจสาธารณะ คล้ายกับวิธีการทำงานของการตรวจสอบอีเมลในปัจจุบัน สิ่งนี้จะช่วยให้เจ้าของเว็บไซต์ตัดสินใจเองเกี่ยวกับบอทใดที่จะอนุญาต โดยไม่ต้องลงทะเบียนกับหน่วยงานกลางใดๆ

คุณทำให้การร้องขอที่ไม่ได้รับการตรวจสอบราคาถูกพอที่คุณไม่สนใจเรื่องปริมาณ สงวนการจำกัดอัตราสำหรับผู้ใช้ที่ได้รับการตรวจสอบที่คุณมีตัวตนจริง เว็บเปิดอยู่รอดด้วยการให้บริการฟรีอย่างแท้จริง ไม่ใช่ด้วยการพยายามเดาว่าใครเป็น 'คนจริง'

นักพัฒนาบางคนยังสำรวจระบบ proof of work ที่บอทจะต้องแก้ปริศนาการคำนวณก่อนเข้าถึงเนื้อหา ทำให้การ scraping ขนาดใหญ่มีค่าใช้จ่ายมากขึ้น ขณะที่ยังคงเข้าถึงได้สำหรับผู้ใช้ที่ถูกต้องและระบบอัตโนมัติที่มีมารยาท

โซลูชันทางเทคนิคที่เสนอ:

  • Cloudflare Signed Agents - รายชื่อที่อนุญาตแบบรวมศูนย์ที่ต้องการการลงทะเบียน
  • การตรวจสอบผ่าน DNS - ใช้การเข้ารหัสแบบกุญแจสาธารณะผ่าน DNS records
  • ระบบ Proof of work - ปริศนาทางการคำนวณเพื่อทำให้การ scraping มีต้นทุนสูง
  • ใบรับรอง X.509 - ห่วงโซ่การมอบหมายสำหรับการเข้าถึงที่ได้รับอนุญาต
  • ทางเลือก Open source - โปรเจกต์อย่าง Anubis สำหรับการป้องกันแบบ self-hosted

อนาคตของการเข้าถึงเว็บ

การถกเถียงสะท้อนความตึงเครียดที่กว้างขึ้นระหว่างการรักษาเว็บให้เปิดและการปกป้องผู้สร้างเนื้อหาจากการแสวงหาประโยชน์ ในขณะที่บริษัท AI โต้แย้งว่าเครื่องมือของพวกเขาให้คุณค่าแก่ผู้ใช้ เจ้าของเว็บไซต์รู้สึกมากขึ้นว่าพวกเขากำลังสนับสนุนบรรษัทพันล้านดอลลาร์โดยไม่ได้รับค่าตอบแทน ความท้าทายอยู่ที่การหาแนวทางแก้ไขที่รักษาธรรมชาติเปิดของเว็บขณะที่ให้การควบคุมที่มีความหมายแก่เจ้าของเว็บไซต์เหนือทรัพยากรของพวกเขา

ขณะที่สถานการณ์นี้พัฒนาไป ตัวเลือกที่ทำในวันนี้อาจกำหนดว่าอินเทอร์เน็ตจะยังคงเป็นแพลตฟอร์มกระจายอำนาจสำหรับนวัตกรรม หรือจะพัฒนาเป็นชุดสวนที่ล้อมรั้วที่ควบคุมโดยบริษัทใหญ่เพียงไม่กี่แห่ง ชุมชนเทคนิคยังคงทำงานเกี่ยวกับมาตรฐานเปิดที่สามารถให้ประโยชน์ของการตรวจสอบบอทโดยไม่มีความเสี่ยงของการควบคุมแบบรวมศูนย์

อ้างอิง: The Web Does Not Need Gatekeepers