Perplexity AI ถูกจับได้ใช้ Crawler แบบลับๆ เพื่อหลีกเลี่ยงการถูกบล็อกจากเว็บไซต์

ทีมชุมชน BigGo

Perplexity AI ถูกจับได้ใช้ Crawler แบบลับๆ เพื่อหลีกเลี่ยงการถูกบล็อกจากเว็บไซต์

Cloudflare ได้เปิดโปง Perplexity AI ที่ใช้กลยุทธ์การ crawl แบบหลอกลวงเพื่อเข้าถึงเว็บไซต์ที่ได้บล็อก bot ของบริษัทไว้อย่างชัดเจน การสืบสวนของบริษัทความปลอดภัยไซเบอร์แห่งนี้เผยให้เห็นรูปแบบพฤติกรรมที่บ่อนทำลายกลไกความไว้วางใจพื้นฐานที่ควบคุมการ web crawling มาเป็นเวลาหลายทศวรรษ

ข้อถกเถียงนี้มีจุดศูนย์กลางอยู่ที่การเพิกเฉยของ Perplexity ต่อไฟล์ robots.txt และการบล็อกเครือข่าย เมื่อเจ้าของเว็บไซต์พยายามป้องกันไม่ให้ crawler ที่ประกาศตัวของ Perplexity เข้าถึงเนื้อหาของพวกเขา บริษัท AI นี้ถูกกล่าวหาว่าเปลี่ยนไปใช้ user agent ที่ไม่เปิดเผยซึ่งปลอมแปลงเป็นเว็บเบราว์เซอร์ทั่วไp โดยเฉพาะการเลียนแบบ Google Chrome บน macOS

กลยุทธ์การหลบเลี่ยงของ Perplexity :

ใช้ user agent ที่ไม่เปิดเผยซึ่งปลอมแปลงเป็น Google Chrome บน macOS
หมุนเวียนผ่าน IP address หลายตัวที่ไม่อยู่ในช่วงที่เป็นทางการ
สลับไปมาระหว่าง ASN ต่างๆ (ผู้ให้บริการอินเทอร์เน็ต)
เพิกเฉยหรือไม่สามารถดึงไฟล์ robots.txt ได้
ดำเนินการ crawl ต่อไปหลังจากถูกบล็อกโดย user agent ที่ประกาศไว้


ภาพประกอบที่เน้นประเด็นปัญหาการ stealth crawling ที่ใช้โดย Perplexity AI

ขนาดของการ Crawl แบบหลอกลวง

การวิจัยของ Cloudflare ค้นพบกลยุทธ์การหลบเลี่ยงอย่างกว้างขวางในหลายหมื่นโดเมน โดยมีคำขอหลายล้านรายการต่อวันที่มาจากที่อยู่ IP ที่ไม่ได้อยู่ในช่วงอย่างเป็นทางการของ Perplexity บริษัทหมุนเวียนผ่านผู้ให้บริการอินเทอร์เน็ตต่างๆ (ASN) เพื่อปกปิดกิจกรรมการ crawl เมื่อเผชิญกับข้อจำกัด

เพื่อทดสอบความสงสัยของพวกเขา Cloudflare สร้างโดเมนใหม่เอี่ยมพร้อมไฟล์ robots.txt ที่เข้มงวดซึ่งห้ามการเข้าถึงแบบอัตโนมัติทั้งหมด แม้จะมีข้อจำกัดที่ชัดเจนเหล่านี้ เมื่อนักวิจัยถาม Perplexity AI เกี่ยวกับโดเมนลับเหล่านี้ บริการดังกล่าวก็ให้ข้อมูลรายละเอียดเกี่ยวกับเนื้อหา ซึ่งพิสูจน์ว่าได้เข้าถึงไซต์ที่ถูกบล็อกแล้ว

การถกเถียงในชุมชนเกี่ยวกับสิทธิ์การเข้าถึงของ AI

การเปิดเผยนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นเกี่ยวกับขอบเขตระหว่างคำขอของผู้ใช้ที่ถูกต้องและการ crawl โดยไม่ได้รับอนุญาต สมาชิกชุมชนบางคนโต้แย้งว่าบริการ AI ที่ทำหน้าที่แทนผู้ใช้ควรมีสิทธิ์การเข้าถึงเช่นเดียวกับเบราว์เซอร์ของมนุษย์ คนอื่นๆ โต้แย้งว่าขนาดที่ใหญ่โตและลักษณะเชิงพาণิชย์ของการ crawl ของ AI เปลี่ยนสมการโดยพื้นฐาน

หากตอนนี้ฉันไปอีกขั้นหนึ่งและใช้ LLM เพื่อสรุปเนื้อหาเพราะการนำเสนอที่แท้จริงเต็มไปด้วยโฆษณา JavaScript และ pop-up จนเนื้อหากลายเป็นสิ่งที่แทบใช้ไม่ได้ แล้วทำไม LLM ที่เข้าถึงเว็บไซต์แทนฉันจึงอยู่ในหมวดหมู่ทางกฎหมายที่แตกต่างจากเบราว์เซอร์ Firefox ของฉันที่เข้าถึงเว็บไซต์แทนฉัน?

ชุมชนเทคนิคยังคงแบ่งแยกเกี่ยวกับว่ามาตรฐานเว็บปัจจุบันจัดการกับการ crawl ของ AI อย่างเพียงพอหรือไม่ ไฟล์ robots.txt แบบดั้งเดิมถูกออกแบบมาสำหรับเสิร์ชเอนจินที่ขับเคลื่อนการเข้าชมกลับไปยังเว็บไซต์ ไม่ใช่สำหรับระบบ AI ที่อาจขจัดความจำเป็นในการที่ผู้ใช้ต้องเยี่ยมชมแหล่งข้อมูลต้นฉบับ

การเปรียบเทียบกับการ Crawling ของ AI อย่างมีจริยธรรม (OpenAI):

ระบุวัตถุประสงค์ของ crawler และ user agents อย่างชัดเจน
เคารพคำสั่งใน robots.txt โดยไม่พยายามหลบเลี่ยง
หยุดการ crawling เมื่อพบหน้า block
ใช้ Web Bot Auth signing สำหรับ HTTP requests
ไม่มีการ crawl ติดตามจาก user agents อื่นเมื่อถูกบล็อก

ผลกระทบที่กว้างขึ้นต่อการเผยแพร่เว็บ

เจ้าของเว็บไซต์แสดงความกังวลที่เพิ่มขึ้นเกี่ยวกับบริษัท AI ที่ทำกำไรจากเนื้อหาของพวกเขาโดยไม่ให้ค่าตอบแทนหรือการระบุแหล่งที่มา ไม่เหมือนกับเสิร์ชเอนจินที่ส่งผู้เยี่ยมชมกลับไปยังแหล่งข้อมูลต้นฉบับ ระบบ AI มักให้คำตอบโดยตรงที่ลดการเข้าชมเว็บไซต์ต้นฉบับ

การเปลี่ยนแปลงนี้คุกคามโมเดลเศรษฐกิจที่สนับสนุนการสร้างเนื้อหาส่วนใหญ่ของเว็บ ผู้เผยแพร่ที่พึ่งพารายได้จากโฆษณาหรือการแปลงสมาชิกกังวลว่าการสรุปของ AI อาจขจัดความสามารถในการสร้างรายได้จากงานของพวกเขา ซึ่งอาจนำไปสู่การที่มีเนื้อหาน้อยลงที่จะเปิดให้สาธารณะใช้ได้

มาตรการตอบสนองของ Cloudflare :

ถอด Perplexity ออกจากรายชื่อบอทที่ได้รับการยืนยัน
เพิ่มฮิวริสติกส์ในกฎการจัดการเพื่อบล็อกการคลานแบบลับๆ
พัฒนาระบบระบุตัวตนของตัวคลานที่ใช้การเรียนรู้ของเครื่อง
เว็บไซต์กว่า 2.5 ล้านแห่งปัจจุบันบล็อกตัวคลาน AI ผ่าน Cloudflare
มีการป้องกันฟรีสำหรับลูกค้า Cloudflare ทุกราย

การแข่งขันด้านเทคนิคที่ทวีความรุนแรงขึ้น

Cloudflare ได้ตอบสนองด้วยการพัฒนาวิธีการตรวจจับใหม่และกฎการบล็อกที่กำหนดเป้าหมายเฉพาะ stealth crawler ของ Perplexity บริษัทตอนนี้ใช้การเรียนรู้ของเครื่องและการวิเคราะห์เครือข่ายเพื่อระบุพฤติกรรมการ crawl ที่ปลอมแปลง แม้เมื่อมันพยายามเลียนแบบรูปแบบการเรียกดูของมนุษย์

อย่างไรก็ตาม ชุมชนเทคนิคยอมรับว่าสิ่งนี้สร้างการแข่งขันด้านอาวุธที่ต่อเนื่อง เมื่อวิธีการตรวจจับดีขึ้น เทคนิคการ crawl ก็ซับซ้อนมากขึ้น บางคนทำนายว่า AI crawler ในอนาคตอาจใช้เครื่องมือ browser automation หรือแม้กระทั่งกระจายการ crawl ผ่านอุปกรณ์ของผู้ใช้เพื่อทำให้การตรวจจับเป็นไปไม่ได้เกือบจะเลย

ข้อถกเถียงนี้เน้นย้ำคำถามพื้นฐานเกี่ยวกับความยินยอม การใช้งานที่เป็นธรรม และอนาคตของเว็บเปิดเมื่อระบบ AI กลายเป็นสิ่งที่แพร่หลายมากขึ้นในวิธีที่ผู้คนเข้าถึงข้อมูล

อ้างอิง: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives


การแข่งขันอย่างต่อเนื่องในการรวบรวมข้อมูลเว็บและการตรวจจับที่เน้นผ่านการนำเสนอการเฝ้าระวังแบบอนาคต

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌