เจ้าของเว็บไซต์กำลังตอบโต้ AI crawler ที่ก้าวร้าวด้วยกลยุทธ์ใหม่ คือการเสิร์ฟเนื้อหาที่เสียหายโดยเจตนาเพื่อวางยาพิษในข้อมูลฝึกอบรมโมเดลภาษาขนาดใหญ่ การต่อต้านอย่างสร้างสรรค์นี้เกิดขึ้นเมื่อวิธีการบล็อกแบบดั้งเดิมอย่างไฟล์ robots.txt พิสูจน์แล้วว่าไม่มีประสิทธิภาพมากขึ้นเรื่อยๆ ต่อ scraper ที่มุ่งมั่น
แนวทางนี้เกี่ยวข้องกับการสร้างบทความเวอร์ชันไร้สาระที่เต็มไปด้วยการบิดเบือนทางไวยากรณ์และความไร้สาระทางศัพท์ จากนั้นทำให้เวอร์ชันที่เสียหายเหล่านี้เข้าถึงได้เฉพาะผ่านลิงก์ nofollow ทฤษฎีคือเสิร์ชเอนจินที่ถูกต้องตามกฎหมายอย่าง Google จะเคารพคำสั่ง nofollow ในขณะที่ AI crawler ที่เป็นโจรจะเพิกเฉยต่อมันและบริโภคเนื้อหาที่ปนเปื้อน
![]() |
---|
กราฟิกดีไซน์ที่เป็นสัญลักษณ์ของความเสียหายหรือลิงก์ที่เสียในเนื้อหา สะท้อนถึงการต่อต้าน AI crawler |
ปัญหา: Crawler ที่ไม่ยอมรับคำปฏิเสธ
เจ้าของเว็บไซต์หลายรายรายงานว่าถูกครอบงำด้วยพฤติกรรมการ scraping ที่ก้าวร้าว บางรายต้องเผชิญกับการโจมตีอย่างต่อเนื่องจาก crawler ที่เข้าถึงเซิร์ฟเวอร์ของพวกเขาด้วยความถี่ 12 คำขอต่อวินาทีหรือมากกว่า ทำให้ต้นทุนแบนด์วิดท์เพิ่มขึ้นและอาจส่งผลต่อประสิทธิภาพของไซต์สำหรับผู้ใช้ที่ถูกต้องตามกฎหมาย ปัญหานี้รุนแรงมากจนไซต์เล็กๆ ที่มีการเข้าชมน้อยก็ถูกกำหนดเป้าหมายอย่างก้าวร้าวเท่ากับแพลตฟอร์มใหญ่ๆ
วิธีการบล็อกแบบดั้งเดิมพิสูจน์แล้วว่าไม่เพียงพอ ในขณะที่บริษัทใหญ่ๆ อย่าง OpenAI อ้างว่าเคารพไฟล์ robots.txt สำหรับ training crawler ของพวกเขา ความเป็นจริงซับซ้อนกว่านั้น scraper หลายตัวไม่สนใจกฎเหล่านี้โดยสิ้นเชิงหรือดำเนินการผ่านบุคคลที่สาม ทำให้เกือบเป็นไปไม่ได้ที่จะรักษา blocklist ที่มีประสิทธิภาพ
User Agents ของ LLM Crawler ที่พบบ่อย
- GPTBot ( OpenAI )
- Perplexity-User (ไม่สนใจ robots.txt สำหรับคำขอของผู้ใช้)
- ChatGPT-User (แตกต่างจาก GPTBot )
- Crawler ที่ไม่เปิดเผยชื่อต่างๆ จาก Tencent และบริษัทอื่นๆ
โซลูชันชุมชน: Honeypot และ Tarpit
ชุมชนเทคโนโลยีได้พัฒนามาตรการตอบโต้ที่สร้างสรรค์หลายอย่าง เครื่องมืออย่าง Iocaine และ Nepenthes สร้าง tarpit - แหล่งเนื้อหาขยะที่สร้างขึ้นไม่มีที่สิ้นสุดที่เชื่อมโยงกับตัวเองซ้ำๆ ออกแบบมาเพื่อเสียทรัพยากร crawler โซลูชันเหล่านี้สามารถทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ขั้นต่ำ โดยบางตัวจัดการกับโหลด scraping หนักในขณะที่ใช้ RAM เพียง 30 เมกะไบต์บน VPS ที่ราคาสามดอลลาร์สหรัฐต่อเดือน
แนวทางการวางยาพิษไปไกลกว่านั้นโดยอาจปนเปื้อนข้อมูลฝึกอบรมจริง โดยการสร้างเนื้อหาที่ดูถูกต้องตามกฎหมายสำหรับระบบอัตโนมัติแต่มีข้อผิดพลาดที่ละเอียดอ่อนและองค์ประกอบที่ไร้สาระ เจ้าของเว็บไซต์หวังว่าจะลดคุณภาพของโมเดล AI ที่ฝึกอบรมด้วยเนื้อหาของพวกเขา
การเปรียบเทียบการใช้ทรัพยากร
- Iocaine honeypot: ใช้ RAM ประมาณ 30 MB บน VPS ราคา 3 USD ต่อเดือน
- สามารถจัดการคำขอได้ประมาณ 12 คำขอต่อวินาทีจาก crawler
- ต้องการข้อกำหนดเซิร์ฟเวอร์น้อยที่สุดสำหรับการทำงานที่มีประสิทธิภาพ
การอภิปราย: ประสิทธิภาพและจริยธรรม
ไม่ใช่ทุกคนที่เห็นด้วยว่ากลยุทธ์นี้จะได้ผล นักวิจารณ์ชี้ให้เห็นว่าการฝึกอบรม LLM สมัยใหม่เกี่ยวข้องกับกระบวนการกรองที่ซับซ้อนที่ออกแบบมาโดยเฉพาะเพื่อกำจัดเนื้อหาคุณภาพต่ำ พวกเขาโต้แย้งว่าเนื้อหาไร้สาระที่ชัดเจนน่าจะถูกตรวจพบและกรองออกก่อนที่จะไปถึงชุดข้อมูลฝึกอบรม
การสร้าง LLM ที่ยอดเยี่ยมเป็นเรื่องของการสร้างชุดฝึกอบรมคุณภาพสูงโดยสิ้นเชิง นั่นคือเกมทั้งหมด! การกรองบทความขยะที่เต็มไปด้วยข้อผิดพลาดการสะกดเป็นหนึ่งในหลายขั้นตอนที่ผู้จำหน่ายจะดำเนินการในการคัดสรรข้อมูลฝึกอบรมนั้น
อย่างไรก็ตาม ผู้สนับสนุนเชื่อว่าแนวทางนี้อาจมีประสิทธิภาพมากขึ้นหากได้รับการยอมรับอย่างกว้างขวาง แม้ว่าความพยายามวางยาพิษเป็นรายบุคคลจะล้มเหลว การระบายทรัพยากรร่วมกันบน scraper อาจบังคับให้เกิดพฤติกรรมที่ดีขึ้น บางคนแนะนำว่ารูปแบบการทำลายเนื้อหาที่ละเอียดอ่อนมากขึ้นอาจพิสูจน์ได้ว่าตรวจพบและกรองได้ยากกว่า
ขั้นตอนการดำเนินการ Content Poisoning
- สร้างเทมเพลตที่ไร้สาระซึ่งเลียนแบบบทความหลัก
- ใช้การจัดการข้อความเพื่อแทนที่คำสุ่ม
- เพิ่มลิงก์ nofollow ไปยังเวอร์ชันที่เสียหาย
- บล็อก crawler ที่ถูกต้องตามกฎหมายจากหน้าที่ไร้สาระผ่าน robots.txt
- ดัก crawler ในเมทริกซ์ของเนื้อหาที่ไร้สาระผ่านการลิงก์ภายใน
มองไปข้างหน้า: การแข่งขันด้านอาวุธ
การพัฒนานี้แสดงถึงการเพิ่มระดับล่าสุดในการแข่งขันด้านอาวุธที่กำลังดำเนินอยู่ระหว่างผู้สร้างเนื้อหาและบริษัท AI ในขณะที่ผู้เล่นรายใหญ่อย่าง OpenAI และ Anthropic ได้สร้างช่องทางอย่างเป็นทางการสำหรับการเลือกไม่เข้าร่วมการรวบรวมข้อมูลฝึกอบรม การแพร่กระจายของกิจการ AI ขนาดเล็กหมายความว่า scraper ใหม่ปรากฏขึ้นอย่างต่อเนื่อง
ประสิทธิภาพของการวางยาพิษเนื้อหายังคงต้องได้รับการพิสูจน์ แต่มันสะท้อนถึงความคับข้องใจที่เพิ่มขึ้นกับสถานะปัจจุบันของ web scraping ไม่ว่าจะผ่านมาตรการตอบโต้ทางเทคนิคหรือการเปลี่ยนแปลงนโยบาย ความตึงเครียดระหว่างความต้องการการพัฒนา AI และสิทธิของผู้สร้างเนื้อหายังคงขับเคลื่อนนวัตกรรมในทั้งสองฝ่าย
robots.txt: ไฟล์มาตรฐานที่บอก web crawler ว่าส่วนใดของเว็บไซต์ที่พวกเขาไม่ควรเข้าถึง nofollow: แอตทริบิวต์ HTML ที่บอกเสิร์ชเอนจินไม่ให้ติดตามลิงก์เฉพาะ VPS: Virtual Private Server บริการเว็บโฮสติ้งประเภทหนึ่ง
อ้างอิง: POISONING WELL