Perplexity AI ถูกจับได้ใช้ Crawler แบบลับๆ เพื่อหลีกเลี่ยงการถูกบล็อกจากเว็บไซต์

ทีมชุมชน BigGo
Perplexity AI ถูกจับได้ใช้ Crawler แบบลับๆ เพื่อหลีกเลี่ยงการถูกบล็อกจากเว็บไซต์

Cloudflare ได้เปิดโปง Perplexity AI ที่ใช้กลยุทธ์การ crawl แบบหลอกลวงเพื่อเข้าถึงเว็บไซต์ที่ได้บล็อก bot ของบริษัทไว้อย่างชัดเจน การสืบสวนของบริษัทความปลอดภัยไซเบอร์แห่งนี้เผยให้เห็นรูปแบบพฤติกรรมที่บ่อนทำลายกลไกความไว้วางใจพื้นฐานที่ควบคุมการ web crawling มาเป็นเวลาหลายทศวรรษ

ข้อถกเถียงนี้มีจุดศูนย์กลางอยู่ที่การเพิกเฉยของ Perplexity ต่อไฟล์ robots.txt และการบล็อกเครือข่าย เมื่อเจ้าของเว็บไซต์พยายามป้องกันไม่ให้ crawler ที่ประกาศตัวของ Perplexity เข้าถึงเนื้อหาของพวกเขา บริษัท AI นี้ถูกกล่าวหาว่าเปลี่ยนไปใช้ user agent ที่ไม่เปิดเผยซึ่งปลอมแปลงเป็นเว็บเบราว์เซอร์ทั่วไp โดยเฉพาะการเลียนแบบ Google Chrome บน macOS

กลยุทธ์การหลบเลี่ยงของ Perplexity :

  • ใช้ user agent ที่ไม่เปิดเผยซึ่งปลอมแปลงเป็น Google Chrome บน macOS
  • หมุนเวียนผ่าน IP address หลายตัวที่ไม่อยู่ในช่วงที่เป็นทางการ
  • สลับไปมาระหว่าง ASN ต่างๆ (ผู้ให้บริการอินเทอร์เน็ต)
  • เพิกเฉยหรือไม่สามารถดึงไฟล์ robots.txt ได้
  • ดำเนินการ crawl ต่อไปหลังจากถูกบล็อกโดย user agent ที่ประกาศไว้
ภาพประกอบที่เน้นประเด็นปัญหาการ stealth crawling ที่ใช้โดย Perplexity AI
ภาพประกอบที่เน้นประเด็นปัญหาการ stealth crawling ที่ใช้โดย Perplexity AI

ขนาดของการ Crawl แบบหลอกลวง

การวิจัยของ Cloudflare ค้นพบกลยุทธ์การหลบเลี่ยงอย่างกว้างขวางในหลายหมื่นโดเมน โดยมีคำขอหลายล้านรายการต่อวันที่มาจากที่อยู่ IP ที่ไม่ได้อยู่ในช่วงอย่างเป็นทางการของ Perplexity บริษัทหมุนเวียนผ่านผู้ให้บริการอินเทอร์เน็ตต่างๆ (ASN) เพื่อปกปิดกิจกรรมการ crawl เมื่อเผชิญกับข้อจำกัด

เพื่อทดสอบความสงสัยของพวกเขา Cloudflare สร้างโดเมนใหม่เอี่ยมพร้อมไฟล์ robots.txt ที่เข้มงวดซึ่งห้ามการเข้าถึงแบบอัตโนมัติทั้งหมด แม้จะมีข้อจำกัดที่ชัดเจนเหล่านี้ เมื่อนักวิจัยถาม Perplexity AI เกี่ยวกับโดเมนลับเหล่านี้ บริการดังกล่าวก็ให้ข้อมูลรายละเอียดเกี่ยวกับเนื้อหา ซึ่งพิสูจน์ว่าได้เข้าถึงไซต์ที่ถูกบล็อกแล้ว

การถกเถียงในชุมชนเกี่ยวกับสิทธิ์การเข้าถึงของ AI

การเปิดเผยนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นเกี่ยวกับขอบเขตระหว่างคำขอของผู้ใช้ที่ถูกต้องและการ crawl โดยไม่ได้รับอนุญาต สมาชิกชุมชนบางคนโต้แย้งว่าบริการ AI ที่ทำหน้าที่แทนผู้ใช้ควรมีสิทธิ์การเข้าถึงเช่นเดียวกับเบราว์เซอร์ของมนุษย์ คนอื่นๆ โต้แย้งว่าขนาดที่ใหญ่โตและลักษณะเชิงพาণิชย์ของการ crawl ของ AI เปลี่ยนสมการโดยพื้นฐาน

หากตอนนี้ฉันไปอีกขั้นหนึ่งและใช้ LLM เพื่อสรุปเนื้อหาเพราะการนำเสนอที่แท้จริงเต็มไปด้วยโฆษณา JavaScript และ pop-up จนเนื้อหากลายเป็นสิ่งที่แทบใช้ไม่ได้ แล้วทำไม LLM ที่เข้าถึงเว็บไซต์แทนฉันจึงอยู่ในหมวดหมู่ทางกฎหมายที่แตกต่างจากเบราว์เซอร์ Firefox ของฉันที่เข้าถึงเว็บไซต์แทนฉัน?

ชุมชนเทคนิคยังคงแบ่งแยกเกี่ยวกับว่ามาตรฐานเว็บปัจจุบันจัดการกับการ crawl ของ AI อย่างเพียงพอหรือไม่ ไฟล์ robots.txt แบบดั้งเดิมถูกออกแบบมาสำหรับเสิร์ชเอนจินที่ขับเคลื่อนการเข้าชมกลับไปยังเว็บไซต์ ไม่ใช่สำหรับระบบ AI ที่อาจขจัดความจำเป็นในการที่ผู้ใช้ต้องเยี่ยมชมแหล่งข้อมูลต้นฉบับ

การเปรียบเทียบกับการ Crawling ของ AI อย่างมีจริยธรรม (OpenAI):

  • ระบุวัตถุประสงค์ของ crawler และ user agents อย่างชัดเจน
  • เคารพคำสั่งใน robots.txt โดยไม่พยายามหลบเลี่ยง
  • หยุดการ crawling เมื่อพบหน้า block
  • ใช้ Web Bot Auth signing สำหรับ HTTP requests
  • ไม่มีการ crawl ติดตามจาก user agents อื่นเมื่อถูกบล็อก

ผลกระทบที่กว้างขึ้นต่อการเผยแพร่เว็บ

เจ้าของเว็บไซต์แสดงความกังวลที่เพิ่มขึ้นเกี่ยวกับบริษัท AI ที่ทำกำไรจากเนื้อหาของพวกเขาโดยไม่ให้ค่าตอบแทนหรือการระบุแหล่งที่มา ไม่เหมือนกับเสิร์ชเอนจินที่ส่งผู้เยี่ยมชมกลับไปยังแหล่งข้อมูลต้นฉบับ ระบบ AI มักให้คำตอบโดยตรงที่ลดการเข้าชมเว็บไซต์ต้นฉบับ

การเปลี่ยนแปลงนี้คุกคามโมเดลเศรษฐกิจที่สนับสนุนการสร้างเนื้อหาส่วนใหญ่ของเว็บ ผู้เผยแพร่ที่พึ่งพารายได้จากโฆษณาหรือการแปลงสมาชิกกังวลว่าการสรุปของ AI อาจขจัดความสามารถในการสร้างรายได้จากงานของพวกเขา ซึ่งอาจนำไปสู่การที่มีเนื้อหาน้อยลงที่จะเปิดให้สาธารณะใช้ได้

มาตรการตอบสนองของ Cloudflare :

  • ถอด Perplexity ออกจากรายชื่อบอทที่ได้รับการยืนยัน
  • เพิ่มฮิวริสติกส์ในกฎการจัดการเพื่อบล็อกการคลานแบบลับๆ
  • พัฒนาระบบระบุตัวตนของตัวคลานที่ใช้การเรียนรู้ของเครื่อง
  • เว็บไซต์กว่า 2.5 ล้านแห่งปัจจุบันบล็อกตัวคลาน AI ผ่าน Cloudflare
  • มีการป้องกันฟรีสำหรับลูกค้า Cloudflare ทุกราย

การแข่งขันด้านเทคนิคที่ทวีความรุนแรงขึ้น

Cloudflare ได้ตอบสนองด้วยการพัฒนาวิธีการตรวจจับใหม่และกฎการบล็อกที่กำหนดเป้าหมายเฉพาะ stealth crawler ของ Perplexity บริษัทตอนนี้ใช้การเรียนรู้ของเครื่องและการวิเคราะห์เครือข่ายเพื่อระบุพฤติกรรมการ crawl ที่ปลอมแปลง แม้เมื่อมันพยายามเลียนแบบรูปแบบการเรียกดูของมนุษย์

อย่างไรก็ตาม ชุมชนเทคนิคยอมรับว่าสิ่งนี้สร้างการแข่งขันด้านอาวุธที่ต่อเนื่อง เมื่อวิธีการตรวจจับดีขึ้น เทคนิคการ crawl ก็ซับซ้อนมากขึ้น บางคนทำนายว่า AI crawler ในอนาคตอาจใช้เครื่องมือ browser automation หรือแม้กระทั่งกระจายการ crawl ผ่านอุปกรณ์ของผู้ใช้เพื่อทำให้การตรวจจับเป็นไปไม่ได้เกือบจะเลย

ข้อถกเถียงนี้เน้นย้ำคำถามพื้นฐานเกี่ยวกับความยินยอม การใช้งานที่เป็นธรรม และอนาคตของเว็บเปิดเมื่อระบบ AI กลายเป็นสิ่งที่แพร่หลายมากขึ้นในวิธีที่ผู้คนเข้าถึงข้อมูล

อ้างอิง: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

การแข่งขันอย่างต่อเนื่องในการรวบรวมข้อมูลเว็บและการตรวจจับที่เน้นผ่านการนำเสนอการเฝ้าระวังแบบอนาคต
การแข่งขันอย่างต่อเนื่องในการรวบรวมข้อมูลเว็บและการตรวจจับที่เน้นผ่านการนำเสนอการเฝ้าระวังแบบอนาคต