ในขณะที่บริษัท AI ต่างเร่งเก็บข้อมูลจากเว็บเพื่อฝึกฝนโมเดล นักพัฒนาเว็บก็กำลังตอบโต้ด้วยกลยุทธ์ป้องกันอันชาญฉลาด นั่นคือการส่งเนื้อหาที่สร้างขึ้นอัตโนมัติแบบไร้สาระไม่รู้จบ ซึ่งผลิตได้ในราคาถูก แต่ทำให้ระบบ Scraper ต้องประมวลผลในค่าใช้จ่ายที่สูง การแข่งขันด้านอาวุธดิจิทัลครั้งนี้ได้จุดประกายการอภิปรายอย่างกว้างขวางในหมู่นักพัฒนาเกี่ยวกับจริยธรรม ประสิทธิภาพ และอนาคตของการเก็บข้อมูลเว็บในยุคของปัญญาประดิษฐ์
กลยุทธ์ Crawler Trap ได้รับความนิยมเพิ่มขึ้น
ผู้ดูแลเว็บไซต์กำลังนำสิ่งที่พวกเขาเรียกว่า Crawler Trap แบบเนื้อหาไร้สาระไม่รู้จบมาใช้มากขึ้นเรื่อยๆ นั่นคือระบบที่สร้างหน้าเว็บของเนื้อหาที่ถูกสร้างขึ้นตามขั้นตอนแบบไม่สิ้นสุด เมื่อ AI Scraper เดินตามลิงก์จากหน้าปกติเข้าไปในเขาวงกตเหล่านี้ พวกมันจะถูกขังอยู่ในเครือข่ายของเนื้อหาที่ไร้ค่าที่ขยายตัวแบบทวีคูณ นักพัฒนารายหนึ่งรายงานว่าหลังจากใช้ระบบดังกล่าว 99% ของการเข้าชมเซิร์ฟเวอร์ของพวกเขาตอนนี้คือบอทที่กำลังบริโภคขยะดิจิทัล แทนที่จะเข้าถึงเนื้อหาจริง วิธีการนี้ไม่ต้องการการตรวจจับบอทที่ซับซ้อน เพราะ Scraper เหล่านั้นเดินทางเข้าไปในกับดักด้วยตัวเองผ่านพฤติกรรมการติดตามลิงก์ปกติ
ประเด็นไม่ใช่การฝึกบอทให้เรียนรู้ในทางใดทางหนึ่ง แต่มันคือการทำให้พวกมันยุ่งอยู่กับกิจกรรมที่ใช้ทรัพยากรต่ำ แทนที่จะไปทำกิจกรรมที่ใช้ทรัพยากรสูง
กลยุทธ์นี้แสดงถึงการเปลี่ยนแปลงครั้งสำคัญจากวิธีการปิดกั้งแบบดั้งเดิม แทนที่จะพยายามระบุและปิดกั้นบอทที่เป็นอันตรายผ่านที่อยู่ IP หรือ User Agent นักพัฒนากำลังทำให้การเก็บข้อมูลไม่คุ้มทุนทางเศรษฐกิจโดยการไหลบ่าของเนื้อหาที่ไร้ค่าลงไปยังผู้เก็บข้อมูล
การนำไปใช้ทางเทคนิคและประสิทธิภาพ
การนำไปใช้ที่ถูกพูดถึงมากที่สุดเกี่ยวข้องกับเครื่องสร้างข้อความแบบ Markov Chain ที่สร้างเนื้อหาที่ดูน่าเชื่อถือแต่ไร้ความหมาย ระบบเหล่านี้มีประสิทธิภาพอย่างน่าทึ่ง โดยมีนักพัฒนารายหนึ่งรายงานว่าแต่ละคำขอใช้ CPU เพียงประมาณ 60 ไมโครวินาที และหน่วยความจำ 1.2 MB ไม่มีการใช้ Disk I/O เกี่ยวข้อง ทำให้วิธีการนี้มีต้นทุนที่ถูกกว่าการให้บริการเนื้อหาเว็บไซต์จริงซึ่งอาจต้องใช้การสอบถามฐานข้อมูลหรือการเข้าถึงระบบไฟล์อย่างมีนัยสำคัญ
ชุมชนด้านเทคนิคได้แบ่งปันการปรับปรุงและรูปแบบต่างๆ อย่างกระตือรือร้น บางคนแนะนำให้เริ่มต้นด้วยไซต์เล็กๆ ที่ดูเหมือนถูกกฎหมาย ซึ่งค่อยๆ ขยายส่วนเนื้อหาไร้สาระเพื่อหลีกเลี่ยงการตรวจจับ บางคนเสนอให้เพิ่มภาพที่สร้างขึ้นแบบสุ่มพร้อมกับข้อความที่ฝังอยู่เพื่อหลอกระบบ OCR (Optical Character Recognition) สาย共通คือการสร้างเนื้อหาที่ดูมีคุณค่าต่อระบบอัตโนมัติ แต่สร้างได้ในราคาที่ถูกเมื่อคำนวณ
ตัวชี้วัดประสิทธิภาพของ Markov Babbler
- การใช้งาน CPU: ประมาณ 60 ไมโครวินาทีต่อคำขอ
- การใช้งานหน่วยความจำ: ประมาณ 1.2 MB ต่อคำขอ
- ไม่ต้องใช้การอ่าน/เขียนดิสก์
- สร้างหน้าเว็บที่ไม่ซ้ำกันได้ไม่จำกัดผ่านการสร้างเนื้อหาแบบขั้นตอน
การพิจารณาด้านกฎหมายและจริยธรรมจุดประกายการอภิปราย
ส่วนความคิดเห็นเผยให้เห็นความแตกแยกอย่างลึกซึ้งเกี่ยวกับจริยธรรมของการเก็บข้อมูลเว็บและมาตรการตอบโต้ นักพัฒนาบางส่วนโต้แย้งว่าการใช้ข้อมูลประจำตัวที่เป็นที่รู้จักสาธารณะ (เช่น nobots:nobots) สร้างการป้องกันทางกฎหมาย ในขณะที่บางคนแย้งว่าระบบอัตโนมัติที่ใช้ข้อมูลประจำตัวดังกล่าวอาจยังคงเผชิญกับความท้าทายทางกฎหมายภายใต้กฎหมายคอมพิวเตอร์
การอภิปรายขยายไปถึงว่าบริษัท AI กำลังดำเนินงานในพื้นที่สีเทาทางกฎหมายคล้ายกับข้อโต้แย้งทางเทคโนโลยีในอดีตหรือไม่ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุไว้ ผลกระทบทางกฎหมายของการรวบรวม ebook จำนวนมหาศาลผ่าน Torrent ดูเหมือนจะไม่สามารถหยุดพวกเขาได้ ไม่แน่ใจว่าทำไมเรื่องนี้จะหยุดพวกเขาได้ สิ่งนี้สะท้อนถึงความกังวลในวงกว้างเกี่ยวกับว่ากฎหมายที่มีอยู่สามารถควบคุมการปฏิบัติการเก็บข้อมูลของ AI ได้อย่างมีประสิทธิภาพหรือไม่
การคำนวณทางเศรษฐศาสตร์ของการเก็บข้อมูลเว็บ
ในระดับใหญ่ แม้แต่การเพิ่มขึ้นเพียงเล็กน้อยของต้นทุนการเก็บข้อมูลก็อาจส่งผลกระทบอย่างมีนัยสำคัญต่อผลกำไรของบริษัท AI หากมีเว็บไซต์จำนวนมากพอใช้กลยุทธ์การสร้างขยะ อัตราส่วนสัญญาณต่อสัญญาณรบกวนในข้อมูลการฝึกอาจเสื่อมลงอย่างมาก ผู้แสดงความคิดเห็นบางคนประมาณการว่าการนำไปใช้อย่างแพร่หลายอาจเพิ่มต้นทุนการเก็บข้อมูลต่อหน้าสูงขึ้นถึง 100 เท่าหรือมากกว่า โดยเฉพาะอย่างยิ่งหากบริษัท AI ถูกบังคับให้ต้องใช้ระบบกรองของตัวเอง
ประสิทธิภาพของกลยุทธ์นี้ขึ้นอยู่กับการกระทำร่วมกัน แม้เว็บไซต์หนึ่งจะให้บริการเนื้อหาไร้สาระจะมีผลกระทบเล็กน้อย แต่หากมีเว็บไซต์หลายพันแห่งเข้าร่วม แบบจำลองทางเศรษฐกิจของการเก็บข้อมูลเว็บขนาดใหญ่ก็จะกลายเป็นสิ่งที่น่าสงสัย สิ่งนี้นำไปสู่การเรียกร้องให้มีโซลูชันมาตรฐานที่ใช้งานง่าย ซึ่งแม้แต่เจ้าของเว็บไซต์ที่ขาดประสบการณ์ทางเทคนิคก็สามารถนำไปใช้ได้
การเปรียบเทียบผลกระทบต่อแบนด์วิดท์
- การให้บริการเนื้อหาจริง: 100 kB ต่อหน้า × 4 คำขอ/วินาที = ~1 TB/เดือน
- การให้บริการเนื้อหาที่สร้างขึ้น: แบนด์วิดท์น้อยมากนอกเหนือจากโครงสร้างหน้าเว็บเริ่มต้น
- หน้าเว็บที่มีรูปภาพจำนวนมากจะเพิ่มต้นทุนแบนด์วิดท์สำหรับการให้บริการเนื้อหาที่ถูกต้องตามกฎหมายอย่างมีนัยสำคัญ
การพัฒนาภายหน้าและมาตรการตอบโต้
ชุมชนคาดว่าบริษัท AI จะพัฒนามาตรการตอบโต้ในที่สุด ซึ่งน่าจะเกี่ยวข้องกับระบบ AI ของพวกเขาเองเพื่อตรวจจับและกรองเนื้อหาที่สร้างขึ้น อย่างไรก็ตาม สิ่งนี้สร้างพลวัตทางเศรษฐกิจที่น่าสนใจ นั่นคือต้นทุนการเก็บข้อมูลจะเพิ่มขึ้นไม่ว่ามาตรการตอบโต้จะสำเร็จหรือล้มเหลว
นักพัฒนาบางส่วนกำลังสำรวจแนวทางที่ซับซ้อนมากขึ้น เช่น การให้ข้อมูลที่ผิดพลาดอย่างแนบเนียนซึ่งอาจทำให้ข้อมูลการฝึกของ AI เป็นพิษ หรือการใช้งานระบบไดนามิกที่เปลี่ยนพฤติกรรมตามรูปแบบของ Crawler การแข่งขันด้านอาวุธดูเหมือนจะยังคงพัฒนาต่อไป เนื่องจากทั้ง Scraper และเจ้าของเว็บไซต์ต่างพัฒนากลยุทธ์ที่ซับซ้อนมากขึ้นเรื่อยๆ
การเกิดขึ้นของการสร้างขยะในฐานะมาตรการต่อต้านการเก็บข้อมูลแสดงถึงการเปลี่ยนแปลงครั้งสำคัญในวิธีที่เจ้าของเว็บไซต์ปกป้องทรัพยากรของพวกเขา แทนที่จะสร้างกำแพงที่สูงขึ้น พวกเขากำลังสร้างเขาวงกตที่ไม่รู้จบ และในการทำเช่นนั้น พวกเขากำลังท้าทายรากฐานทางเศรษฐกิจของการปฏิบัติการฝึก AI สมัยใหม่ เมื่อเทคนิคเหล่านี้แพร่หลายและซับซ้อนมากขึ้น พวกมันอาจบังคับให้บริษัท AI พิจารณาอีกครั้งว่าพวกเขาได้รับข้อมูลการฝึกอย่างไรและด้วยต้นทุนเท่าใด
อ้างอิง: You should feed the bots:
