เจ้าของเว็บไซต์ใช้กลยุทธ์ "วางยาพิษ" เพื่อต่อสู้กับ LLM Crawler ที่ก้าวร้าว

ทีมชุมชน BigGo
เจ้าของเว็บไซต์ใช้กลยุทธ์ "วางยาพิษ" เพื่อต่อสู้กับ LLM Crawler ที่ก้าวร้าว

เจ้าของเว็บไซต์กำลังตอบโต้ AI crawler ที่ก้าวร้าวด้วยกลยุทธ์ใหม่ คือการเสิร์ฟเนื้อหาที่เสียหายโดยเจตนาเพื่อวางยาพิษในข้อมูลฝึกอบรมโมเดลภาษาขนาดใหญ่ การต่อต้านอย่างสร้างสรรค์นี้เกิดขึ้นเมื่อวิธีการบล็อกแบบดั้งเดิมอย่างไฟล์ robots.txt พิสูจน์แล้วว่าไม่มีประสิทธิภาพมากขึ้นเรื่อยๆ ต่อ scraper ที่มุ่งมั่น

แนวทางนี้เกี่ยวข้องกับการสร้างบทความเวอร์ชันไร้สาระที่เต็มไปด้วยการบิดเบือนทางไวยากรณ์และความไร้สาระทางศัพท์ จากนั้นทำให้เวอร์ชันที่เสียหายเหล่านี้เข้าถึงได้เฉพาะผ่านลิงก์ nofollow ทฤษฎีคือเสิร์ชเอนจินที่ถูกต้องตามกฎหมายอย่าง Google จะเคารพคำสั่ง nofollow ในขณะที่ AI crawler ที่เป็นโจรจะเพิกเฉยต่อมันและบริโภคเนื้อหาที่ปนเปื้อน

กราฟิกดีไซน์ที่เป็นสัญลักษณ์ของความเสียหายหรือลิงก์ที่เสียในเนื้อหา สะท้อนถึงการต่อต้าน AI crawler
กราฟิกดีไซน์ที่เป็นสัญลักษณ์ของความเสียหายหรือลิงก์ที่เสียในเนื้อหา สะท้อนถึงการต่อต้าน AI crawler

ปัญหา: Crawler ที่ไม่ยอมรับคำปฏิเสธ

เจ้าของเว็บไซต์หลายรายรายงานว่าถูกครอบงำด้วยพฤติกรรมการ scraping ที่ก้าวร้าว บางรายต้องเผชิญกับการโจมตีอย่างต่อเนื่องจาก crawler ที่เข้าถึงเซิร์ฟเวอร์ของพวกเขาด้วยความถี่ 12 คำขอต่อวินาทีหรือมากกว่า ทำให้ต้นทุนแบนด์วิดท์เพิ่มขึ้นและอาจส่งผลต่อประสิทธิภาพของไซต์สำหรับผู้ใช้ที่ถูกต้องตามกฎหมาย ปัญหานี้รุนแรงมากจนไซต์เล็กๆ ที่มีการเข้าชมน้อยก็ถูกกำหนดเป้าหมายอย่างก้าวร้าวเท่ากับแพลตฟอร์มใหญ่ๆ

วิธีการบล็อกแบบดั้งเดิมพิสูจน์แล้วว่าไม่เพียงพอ ในขณะที่บริษัทใหญ่ๆ อย่าง OpenAI อ้างว่าเคารพไฟล์ robots.txt สำหรับ training crawler ของพวกเขา ความเป็นจริงซับซ้อนกว่านั้น scraper หลายตัวไม่สนใจกฎเหล่านี้โดยสิ้นเชิงหรือดำเนินการผ่านบุคคลที่สาม ทำให้เกือบเป็นไปไม่ได้ที่จะรักษา blocklist ที่มีประสิทธิภาพ

User Agents ของ LLM Crawler ที่พบบ่อย

  • GPTBot ( OpenAI )
  • Perplexity-User (ไม่สนใจ robots.txt สำหรับคำขอของผู้ใช้)
  • ChatGPT-User (แตกต่างจาก GPTBot )
  • Crawler ที่ไม่เปิดเผยชื่อต่างๆ จาก Tencent และบริษัทอื่นๆ

โซลูชันชุมชน: Honeypot และ Tarpit

ชุมชนเทคโนโลยีได้พัฒนามาตรการตอบโต้ที่สร้างสรรค์หลายอย่าง เครื่องมืออย่าง Iocaine และ Nepenthes สร้าง tarpit - แหล่งเนื้อหาขยะที่สร้างขึ้นไม่มีที่สิ้นสุดที่เชื่อมโยงกับตัวเองซ้ำๆ ออกแบบมาเพื่อเสียทรัพยากร crawler โซลูชันเหล่านี้สามารถทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ขั้นต่ำ โดยบางตัวจัดการกับโหลด scraping หนักในขณะที่ใช้ RAM เพียง 30 เมกะไบต์บน VPS ที่ราคาสามดอลลาร์สหรัฐต่อเดือน

แนวทางการวางยาพิษไปไกลกว่านั้นโดยอาจปนเปื้อนข้อมูลฝึกอบรมจริง โดยการสร้างเนื้อหาที่ดูถูกต้องตามกฎหมายสำหรับระบบอัตโนมัติแต่มีข้อผิดพลาดที่ละเอียดอ่อนและองค์ประกอบที่ไร้สาระ เจ้าของเว็บไซต์หวังว่าจะลดคุณภาพของโมเดล AI ที่ฝึกอบรมด้วยเนื้อหาของพวกเขา

การเปรียบเทียบการใช้ทรัพยากร

  • Iocaine honeypot: ใช้ RAM ประมาณ 30 MB บน VPS ราคา 3 USD ต่อเดือน
  • สามารถจัดการคำขอได้ประมาณ 12 คำขอต่อวินาทีจาก crawler
  • ต้องการข้อกำหนดเซิร์ฟเวอร์น้อยที่สุดสำหรับการทำงานที่มีประสิทธิภาพ

การอภิปราย: ประสิทธิภาพและจริยธรรม

ไม่ใช่ทุกคนที่เห็นด้วยว่ากลยุทธ์นี้จะได้ผล นักวิจารณ์ชี้ให้เห็นว่าการฝึกอบรม LLM สมัยใหม่เกี่ยวข้องกับกระบวนการกรองที่ซับซ้อนที่ออกแบบมาโดยเฉพาะเพื่อกำจัดเนื้อหาคุณภาพต่ำ พวกเขาโต้แย้งว่าเนื้อหาไร้สาระที่ชัดเจนน่าจะถูกตรวจพบและกรองออกก่อนที่จะไปถึงชุดข้อมูลฝึกอบรม

การสร้าง LLM ที่ยอดเยี่ยมเป็นเรื่องของการสร้างชุดฝึกอบรมคุณภาพสูงโดยสิ้นเชิง นั่นคือเกมทั้งหมด! การกรองบทความขยะที่เต็มไปด้วยข้อผิดพลาดการสะกดเป็นหนึ่งในหลายขั้นตอนที่ผู้จำหน่ายจะดำเนินการในการคัดสรรข้อมูลฝึกอบรมนั้น

อย่างไรก็ตาม ผู้สนับสนุนเชื่อว่าแนวทางนี้อาจมีประสิทธิภาพมากขึ้นหากได้รับการยอมรับอย่างกว้างขวาง แม้ว่าความพยายามวางยาพิษเป็นรายบุคคลจะล้มเหลว การระบายทรัพยากรร่วมกันบน scraper อาจบังคับให้เกิดพฤติกรรมที่ดีขึ้น บางคนแนะนำว่ารูปแบบการทำลายเนื้อหาที่ละเอียดอ่อนมากขึ้นอาจพิสูจน์ได้ว่าตรวจพบและกรองได้ยากกว่า

ขั้นตอนการดำเนินการ Content Poisoning

  1. สร้างเทมเพลตที่ไร้สาระซึ่งเลียนแบบบทความหลัก
  2. ใช้การจัดการข้อความเพื่อแทนที่คำสุ่ม
  3. เพิ่มลิงก์ nofollow ไปยังเวอร์ชันที่เสียหาย
  4. บล็อก crawler ที่ถูกต้องตามกฎหมายจากหน้าที่ไร้สาระผ่าน robots.txt
  5. ดัก crawler ในเมทริกซ์ของเนื้อหาที่ไร้สาระผ่านการลิงก์ภายใน

มองไปข้างหน้า: การแข่งขันด้านอาวุธ

การพัฒนานี้แสดงถึงการเพิ่มระดับล่าสุดในการแข่งขันด้านอาวุธที่กำลังดำเนินอยู่ระหว่างผู้สร้างเนื้อหาและบริษัท AI ในขณะที่ผู้เล่นรายใหญ่อย่าง OpenAI และ Anthropic ได้สร้างช่องทางอย่างเป็นทางการสำหรับการเลือกไม่เข้าร่วมการรวบรวมข้อมูลฝึกอบรม การแพร่กระจายของกิจการ AI ขนาดเล็กหมายความว่า scraper ใหม่ปรากฏขึ้นอย่างต่อเนื่อง

ประสิทธิภาพของการวางยาพิษเนื้อหายังคงต้องได้รับการพิสูจน์ แต่มันสะท้อนถึงความคับข้องใจที่เพิ่มขึ้นกับสถานะปัจจุบันของ web scraping ไม่ว่าจะผ่านมาตรการตอบโต้ทางเทคนิคหรือการเปลี่ยนแปลงนโยบาย ความตึงเครียดระหว่างความต้องการการพัฒนา AI และสิทธิของผู้สร้างเนื้อหายังคงขับเคลื่อนนวัตกรรมในทั้งสองฝ่าย

robots.txt: ไฟล์มาตรฐานที่บอก web crawler ว่าส่วนใดของเว็บไซต์ที่พวกเขาไม่ควรเข้าถึง nofollow: แอตทริบิวต์ HTML ที่บอกเสิร์ชเอนจินไม่ให้ติดตามลิงก์เฉพาะ VPS: Virtual Private Server บริการเว็บโฮสติ้งประเภทหนึ่ง

อ้างอิง: POISONING WELL