รายงานล่าสุดได้จุดประกายการถกเถียงอย่างร้อนแรงเกี่ยวกับว่าบริษัทเทคโนโลยียักษ์ใหญ่ควรเคารพความต้องการของเจ้าของเว็บไซต์หรือไม่เมื่อเก็บรวบรวมข้อมูลเพื่อฝึก AI ความขัดแย้งมีจุดศูนย์กลางอยู่ที่ข้อกล่าวหาว่า Meta กำลังดึงข้อมูลจากเว็บไซต์อิสระและ Fediverse instances โดยเพิกเฉยต่อไฟล์ robots.txt อย่างสิ้นเชิง ซึ่งเป็นวิธีมาตรฐานที่เว็บไซต์ใช้บอก crawlers ว่าสามารถเข้าถึงเนื้อหาใดได้บ้าง
การอภิปรายได้เผยให้เห็นความแตกแยกขั้นพื้นฐานในมุมมองของผู้คนต่อข้อมูลสาธารณะบนอินเทอร์เน็ต แม้ว่า Meta จะปฏิเสธข้อกล่าวหา แต่การสนทนาในวงกว้างได้เปิดเผยความตึงเครียดที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับแนวทางการเก็บรวบรวมข้อมูลของบริษัท AI และผลกระทบต่อเว็บอิสระ
ความแตกแยกครั้งใหญ่เรื่อง robots.txt
การตอบสนองของชุมชนแสดงให้เห็นความแตกแยกทางปรัชญาอย่างชัดเจน บางคนโต้แย้งว่าข้อมูลใดๆ ที่เผยแพร่สู่สาธารณะบนอินเทอร์เน็ตควรถือเป็นเป้าหมายที่ยุติธรรมสำหรับการดึงข้อมูลและการฝึก AI พวกเขามองว่าความพยายามที่จะจำกัดการเข้าถึงเป็นการขัดต่อหลักการพื้นฐานของอินเทอร์เน็ตในการแบ่งปันข้อมูลอย่างเปิดเผย
คนอื่นๆ กังวลเกี่ยวกับผลที่ตามมาในระยะยาวของการดึงข้อมูล AI แบบไม่จำกัด พวกเขาชี้ให้เห็นว่าแม้ Fediverse และเว็บไซต์อิสระจะสร้างเนื้อหาที่ทำให้ระบบ AI มีคุณค่า แต่ระบบ AI เหล่านี้อาจจะแทนที่ผู้สร้างต้นฉบับในที่สุด ตัดผู้ชมและรายได้ของพวกเขาออกไป
Generative AI ยังคงพึ่งพาผลงานของผู้สร้างที่มันคุกคามความเป็นอยู่ของพวกเขาสำหรับข้อมูลการฝึก มันยังคงพึ่งพาคนอื่นที่ได้สัมผัสโลกแห่งความจริงและบรรยายให้พวกมันฟัง มันเพียงแค่ปฏิเสธผู้ชมหรือผลแห่งแรงงานของพวกเขา
ผลกระทบทางเทคนิคเกินกว่าจริยธรรม
นอกเหนือจากความกังวลทางปรัชญาแล้ว ผู้ดำเนินการเว็บไซต์รายงานปัญหาเชิงปฏิบัติกับการดึงข้อมูล AI เว็บไซต์อิสระบางแห่งเผชิญกับสิ่งที่เทียบเท่ากับการโจมตี distributed denial-of-service จาก AI crawlers ที่ก้าวร้าว ทำให้เว็บไซต์ของพวกเขาช้าหรือใช้งานไม่ได้สำหรับผู้ใช้ทั่วไป สำหรับเว็บไซต์เล็กๆ ที่ดำเนินการด้วยงบประมาณที่จำกัด การเพิ่มขึ้นของ server load นี้อาจคุกคามความมั่นคงทางการเงินของพวกเขา
ความจริงทางเทคนิคคือไฟล์ robots.txt ทำงานได้เฉพาะเมื่อ crawlers เลือกที่จะเคารพมัน เนื่องจากไฟล์เหล่านี้ไม่มีผลผูกพันทางกฎหมาย บริษัทต่างๆ สามารถเพิกเฉยต่อมันได้โดยไม่ละเมิดกฎหมายใดๆ สิ่งนี้ทำให้เจ้าของเว็บไซต์บางรายใช้มาตรการปิดกั้นที่ก้าวร้าวมากขึ้น รวมถึง firewalls และแม้กระทั่ง zip bombs - ไฟล์บีบอัดที่ขยายเป็นขนาดใหญ่มหาศาลเมื่อถูกดาวน์โหลดโดย crawlers ที่ไม่ต้องการ
มาตรการป้องกันสำหรับผู้ดูแลเว็บไซต์:
- จัดทำข้อกำหนดการให้บริการที่ห้าม AI มาดึงข้อมูลอย่างชัดเจน
- ส่งคำขอลบข้อมูลผ่าน Privacy Center ของ Meta
- ใช้แบบฟอร์ม GDPR (เฉพาะ EU เท่านั้น) สำหรับคำขอปฏิบัติตามกฎระเบียบ
- ติดตั้ง robots.txt และ X-Robots-Tag headers
- ใช้โซลูชัน firewall เช่นซอฟต์แวร์ Anubis
- กำหนดค่า zip bombs เพื่อชะลอ crawler ที่ไม่ต้องการ
ปัจจัย Federation
Fediverse นำเสนอความท้าทายที่เป็นเอกลักษณ์สำหรับการปกป้องข้อมูล เนื่องจากวิธีการทำงานของ federation โพสต์จาก instance หนึ่งสามารถปรากฏในหลายๆ instance อื่นๆ ทั่วเครือข่าย นี่หมายความว่าแม้ว่า instance ของคุณจะไม่ถูกดึงข้อมูลโดยตรง เนื้อหาของคุณอาจยังคงลงเอยใน AI training datasets ผ่านสำเนาที่แคชไว้ใน federated servers อื่นๆ
เอกสารที่รั่วไหลมีรายงานว่าประกอบด้วย 1,659 หน้าของ URLs โดยมี Mastodon, Lemmy และ PeerTube instances หลายสิบแห่งที่ถูกระบุ อย่างไรก็ตาม ขอบเขตที่แท้จริงอาจใหญ่กว่านี้มาก เนื่องจากการวิเคราะห์นับเฉพาะเว็บไซต์ที่มีชื่อแพลตฟอร์มในที่อยู่โดเมนของพวกเขาเท่านั้น
แพลตฟอร์ม Fediverse ที่ได้รับผลกระทบในเอกสารที่รั่วไหล:
- Mastodon: พบ 46 รายการ
- Lemmy: พบ 6 รายการ
- PeerTube: พบ 46 รายการ
- ขนาดเอกสารทั้งหมด: 1,659 หน้าของ URLs
มองไปข้างหน้า
ขณะที่บริษัท AI ยังคงขยายความพยายามในการเก็บรวบรวมข้อมูล ความตึงเครียดระหว่างการแบ่งปันข้อมูลแบบเปิดและการปกป้องผู้สร้างน่าจะทวีความรุนแรงขึ้น เจ้าของเว็บไซต์กำลังสำรวจมาตรการป้องกันต่างๆ ตั้งแต่การอัปเดตข้อกำหนดการให้บริการไปจนถึงโซลูชันการปิดกั้นทางเทคนิค แม้ว่าจะไม่มีสิ่งใดให้การปกป้องที่สมบูรณ์
การถกเถียงสะท้อนคำถามที่กว้างขึ้นเกี่ยวกับว่าการพัฒนา AI ควรสร้างสมดุลระหว่างนวัตกรรมกับการเคารพชุมชนและผู้สร้างที่ผลงานของพวกเขาทำให้นวัตกรรมนั้นเป็นไปได้อย่างไร ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ แนวทางปัจจุบันมีความเสี่ยงที่จะกินข้าวโพดเมล็ดพันธุ์ - บริโภคแหล่งข้อมูลที่ระบบ AI พึ่งพาเพื่อให้ยังคงมีประโยชน์และทันสมัย