การทำลายหนังสือของ Anthropic จุดประกายการถ่ายเทเรื่องวิธีการฝึกอบรม AI และกฎหมายลิขสิทธิ์

ทีมชุมชน BigGo
การทำลายหนังสือของ Anthropic จุดประกายการถ่ายเทเรื่องวิธีการฝึกอบรม AI และกฎหมายลิขสิทธิ์

ชั่วโมงของ Anthropic ในศาลเมื่อเร็วๆ นี้ได้เปิดเผยแนวทางที่ผิดปกติในการฝึกอบรม AI ที่กำลังแบ่งแยกชุมชนเทคโนโลยี บริษัทได้ทำลายหนังสือหลายล้านเล่มเพื่อสร้างข้อมูลฝึกอบรมดิจิทัลสำหรับ Claude คู่แข่งของ ChatGPT โดยใช้เงินหลายล้านดอลลาร์สหรัฐในกระบวนการนี้ แม้จะถูกต้องตามกฎหมาย แต่วิธีการนี้ได้จุดประกายการถกเถียงอย่างรุนแรงเกี่ยวกับความรับผิดชอบต่อสิ่งแวดล้อมและจริยธรรมในการพัฒนา AI

การหลีกเลี่ยงทางกฎหมายสร้างผลที่ตามมาที่ไม่คาดคิด

การทำลายนี้ไม่ใช่การป่าเถื่อนแบบสุ่ม แต่เป็นกลยุทธ์ทางกฎหมายที่คำนวณมาแล้ว กฎหมายลิขสิทธิ์สร้างสถานการณ์แปลกๆ ที่การซื้อหนังสือกายภาพให้อิสระมากกว่าการขอใบอนุญาตหนังสือดิจิทัล หนังสืออิเล็กทรอนิกส์มาพร้อมกับข้อกำหนดการอนุญาตที่เข้มงวดและการป้องกัน DRM ที่ทำให้การประมวลผลจำนวนมากมีความเสี่ยงทางกฎหมาย หนังสือกายภาพที่ได้รับการคุ้มครองโดยหลักการขายครั้งแรกสามารถถูกดัดแปลงหรือทำลายได้เมื่อซื้อแล้ว

ความเป็นจริงทางกฎหมายนี้บังคับให้ Anthropic เข้าสู่แนวทางที่น่าสงสัยต่อสิ่งแวดล้อม พวกเขาจ้าง Tom Turvey อดีตพนักงานของ Google Books ให้ดำเนินการสแกนขนาดใหญ่ที่เกี่ยวข้องกับการตัดเย็บหนังสือ สแกนหน้า และทิ้งเศษกระดาษ กระบวนการนี้ถูกพิจารณาว่าเป็นการใช้งานที่ยุติธรรมโดยผู้พิพากษา William Alsup แต่เฉพาะเพราะ Anthropic ซื้อหนังสือตามกฎหมายและเก็บไฟล์ดิจิทัลไว้ภายใน

การเปรียบเทียบกรอบกฎหมาย

วิธีการ สถานะทางกฎหมาย ความท้าทาย
การสแกนหนังสือเล่มจริง ถูกกฎหมายภายใต้หลักการ first-sale doctrine มีค่าใช้จ่ายสูง ส่งผลเสียต่อสิ่งแวดล้อม
การขอใบอนุญาตหนังสืออิเล็กทรอนิกส์ ต้องมีข้อตกลงกับสำนักพิมพ์ ข้อจำกัดจาก DRM มีจำนวนจำกัด
เนื้อหาละเมิดลิขสิทธิ์ ละเมิดลิขสิทธิ์ ความรับผิดทางกฎหมาย อาจถูกฟ้องร้อง

ชุมชนแบ่งแยกเรื่องผลกระทบต่อสิ่งแวดล้อม

ปฏิกิริยาของชุมชนเทคโนโลยีเผยให้เห็นความกังวลลึกซึ้งเกี่ยวกับแนวปฏิบัติด้านสิ่งแวดล้อมของบริษัท AI หลายคนมองการทำลายหนังสือเป็นการสิ้นเปลือง โดยเฉพาะเมื่อการเปลี่ยนแปลงสภาพภูมิอากาศต้องการการใช้ทรัพยากรที่รับผิดชอบมากขึ้น นักวิจารณ์โต้แย้งว่ามีวิธีการทางเลือกอื่น - The Internet Archive ได้บุกเบิกเทคนิคการสแกนแบบไม่ทำลายที่รักษาหนังสือกายภาพไว้ในขณะที่สร้างสำเนาดิจิทัล

อย่างไรก็ตาม คนอื่นๆ ปกป้องแนวปฏิบัตินี้ว่าเป็นการรีไซเคิลที่ปฏิบัติได้ หนังสือส่วนใหญ่ที่ถูกทำลายเป็นหนังสือทั่วไปที่ซื้อจำนวนมากจากผู้ค้าปลีกรายใหญ่ ไม่ใช่ต้นฉบับหายาก ดังที่ผู้สังเกตการณ์คนหนึ่งกล่าวไว้ คนอายุต่ำกว่า 30 ปีไม่กี่คนที่ยังคงรักษาห้องสมุดส่วนตัวอีกต่อไป แสดงให้เห็นว่าหนังสือเหล่านี้อาจจะกลายเป็นขยะอยู่แล้ว

แนวทางทางเลือก

  • Internet Archive: การสแกนแบบไม่ทำลายช่วยรักษาหนังสือต้นฉบับไว้
  • ความร่วมมือกับ Harvard: OpenAI/Microsoft ทำงานร่วมกับห้องสมุดในโครงการหนังสือสาธารณสมบัติ
  • Google Books: สร้างแนวทางทางกฎหมายสำหรับโครงการดิจิทัลหนังสือ
  • The Pile: Meta ใช้ชุดข้อมูลนี้โดยไม่ทำลายหนังสือต้นฉบับ
ล้อมรอบด้วยกระดาษฉีกย่อย ฉากตลกที่สะท้อนการวิจารณ์เรื่องการสิ้นเปลืองในแนวทางปฏิบัติการฝึก AI
ล้อมรอบด้วยกระดาษฉีกย่อย ฉากตลกที่สะท้อนการวิจารณ์เรื่องการสิ้นเปลืองในแนวทางปฏิบัติการฝึก AI

นิยายวิทยาศาสตร์กลายเป็นความจริง

สถานการณ์นี้สะท้อนอย่างน่าขนลุกกับนวนิยายของ Vernor Vinge ปี 2006 เรื่อง Rainbow's End ที่บรรยายโลกปี 2025 ที่ห้องสมุดใช้เครื่องจักรยักษ์ในการฉีกหนังสือในขณะที่ถ่ายภาพเศษส่วนเพื่อการสร้างใหม่แบบดิจิทัล สมาชิกชุมชนหลายคนสังเกตเห็นความคล้ายคลึงนี้ เน้นให้เห็นว่าการพัฒนา AI ปัจจุบันคล้ายกับนิยายดิสโทเปีย

ความประชดประชันไม่หายไปสำหรับผู้สังเกตการณ์ที่ในขณะที่ Harvard รักษาต้นฉบับอายุ 600 ปีอย่างระมัดระวังสำหรับการฝึกอบรม AI หนังสือสมัยใหม่หลายล้านเล่มถูกลดให้เหลือเป็นวัสดุรีไซเคิลเพื่อสอน Claude เกี่ยวกับวรรณกรรมและการเขียน

ผลกระทบที่กว้างขึ้นสำหรับอุตสาหกรรม AI

กรณีนี้เผยให้เห็นความหิวโหยอย่างสิ้นหวังของอุตสาหกรรม AI สำหรับข้อมูลฝึกอบรมคุณภาพสูงและอุปสรรคทางกฎหมายที่พวกเขาเผชิญ บริษัทต่างๆ เริ่มแรกหันไปใช้เนื้อหาละเมิดลิขสิทธิ์เพื่อหลีกเลี่ยงการเจรจาการอนุญาตที่ซับซ้อนกับสำนักพิมพ์ เมื่อแรงกดดันทางกฎหมายเพิ่มขึ้น พวกเขาหาทางเลือกที่ปลอดภัยกว่า แม้จะมีค่าใช้จ่ายต่อสิ่งแวดล้อม

สถานการณ์นี้เปิดเผยปัญหาพื้นฐาน: กฎหมายลิขสิทธิ์ปัจจุบันทำให้การทำลายกายภาพน่าสนใจทางกฎหมายมากกว่าการอนุญาตดิจิทัล สิ่งนี้สร้างแรงจูงใจที่ผิดปกติที่บริษัทเลือกวิธีการที่สิ้นเปลืองมากกว่าวิธีที่มีประสิทธิภาพเพียงเพื่อการป้องกันทางกฎหมาย

การถกเถียงนี้สะท้อนคำถามที่ใหญ่กว่าเกี่ยวกับลำดับความสำคัญในการพัฒนา AI ในขณะที่เทคโนโลยีสัญญาว่าจะให้ประโยชน์อย่างมีนัยสำคัญ วิธีการที่ใช้ในการสร้างมันทำให้เกิดคำถามร้ายแรงเกี่ยวกับความรับผิดชอบต่อสิ่งแวดล้อมและการจัดการทรัพยากรในยุคของวิกฤตสภาพภูมิอากาศ

อ้างอิง: Anthropic destroyed millions of print books to build its AI models