เอกสารที่ยื่นต่อศาลเมื่อเร็วๆ นี้ได้เปิดเผยแนวปฏิบัติที่เป็นที่ถกเถียงของบริษัท AI Anthropic โดยเผยให้เห็นว่าบริษัทได้ทำลายหนังสือกายภาพหลายล้านเล่มในระหว่างกระบวนการฝึกโมเดลภาษา Claude การเปิดเผยนี้ได้จุดประกายการถกเถียงเกี่ยวกับวิธีการที่บริษัทต่างๆ ใช้ในการหาข้อมูลสำหรับฝึกระบบปัญญาประดิษฐ์และขอบเขตทางกฎหมายที่เกี่ยวข้องกับลิขสิทธิ์และการใช้งานที่ยุติธรรม
![]() |
---|
การเปลี่ยนแปลงจากหนังสือกระดาษไปสู่ข้อมูลดิจิทัลแสดงผ่านภาพหนังสือสีแดงที่ปล่อยรหัสไบนารี สะท้อนถึงวิธีการที่ทำลายล้างของ Anthropic สำหรับการฝึก AI |
กระบวนการสแกนแบบทำลายที่มีต้นทุนหลายล้าน
เอกสารศาลแสดงให้เห็นว่า Anthropic ใช้เงินหลายล้านดอลลาร์สหรัฐในการซื้อหนังสือกายภาพ ซึ่งต่อมาถูกนำไปผ่านกระบวนการสแกนแบบทำลาย บริษัทได้รื้อเล่มหนังสืออย่างเป็นระบบ สแกนหน้าต่างๆ เป็นไฟล์ PDF ที่เครื่องอ่านได้ และทิ้งสำเนาต้นฉบับกระดาษในภายหลัง วิธีการนี้ถูกเลือกใช้เพื่อเร่งกระบวนการดิจิทัลที่จำเป็นในการป้อนข้อมูลข้อความคุณภาพสูงให้กับอัลกอริทึมการฝึกของ Claude
ขนาดของการดำเนินงานนี้มีความใหญ่โต โดยมีหนังสือหลายล้านเล่มถูกดำเนินการผ่านวิธีการทำลายนี้ Anthropic มุ่งเป้าไปที่หนังสือมือสองจากช่องทางค้าปลีกเป็นหลัก เพื่อหลีกเลี่ยงความจำเป็นในการเจรจาใบอนุญาตที่ซับซ้อนกับสำนักพิมพ์ แนวทางของบริษัทได้รับอิทธิพลจากหลักการ first sale doctrine ของสหรัฐอเมริกา ซึ่งอนุญาตให้ผู้ซื้อหนังสือกายภาพสามารถจัดการกับหนังสือเหล่านั้นตามที่ต้องการหลังจากการซื้อ
กระบวนการสแกนแบบทำลาย:
- หนังสือกายภาพหลายล้านเล่มถูกซื้อและทำลาย
- กระบวนการประกอบด้วยการถอดเล่มออก สแกนหน้ากระดาษ ทิ้งต้นฉบับ
- ค่าใช้จ่าย: หลายล้านดอลลาร์สหรัฐ
- เป้าหมาย: หนังสือมือสองจากช่องทางค้าปลีกเป็นหลัก
การจ้างงานเชิงกลยุทธ์และแบบอย่างทางกฎหมาย
ในเดือนกุมภาพันธ์ 2024 Anthropic ได้จ้าง Tom Turvey ซึ่งเคยดูแลความร่วมมือสำหรับ Google Books มาก่อน โดยมอบหมายให้เขาทำหน้าที่ในการหาหนังสือจากทั่วโลก การแต่งตั้งเชิงกลยุทธ์นี้บ่งบอกว่าบริษัทมุ่งหวังที่จะทำซ้ำแบบจำลองการดิจิทัลหนังสือของ Google ที่ประสบความสำเร็จทางกฎหมาย ซึ่งศาลเคยตัดสินว่าเป็นการใช้งานที่ยุติธรรม
การตัดสินใจจ้างงานนี้พิสูจน์ให้เห็นความคิดการณ์ไกลเมื่อผู้พิพากษา William Alsup ตัดสินว่าวิธีการสแกนของ Anthropic เป็นการใช้งานที่ยุติธรรม เหตุผลของผู้พิพากษามุ่งเน้นไปที่ปัจจัยหลายประการ คือ หนังสือถูกซื้อมาอย่างถูกกฎหมาย ถูกทำลายทันทีหลังจากการสแกน และไฟล์ดิจิทัลยังคงอยู่สำหรับการใช้งานภายในเท่านั้นโดยไม่มีการแจกจ่ายภายนอก เขาอธิบายกระบวนการนี้ว่าเป็นการเปลี่ยนแปลงดิจิทัลที่ประหยัดพื้นที่พร้อมลักษณะการเปลี่ยนแปลงที่เพียงพอเพื่อมีสิทธิ์ได้รับการคุ้มครองการใช้งานที่ยุติธรรม
ชิงชัยทางกฎหมายแบบผสมผสานกับความท้าทายที่ยังคงมีอยู่
แม้ว่า Anthropic จะได้รับชัยชนะทางกฎหมายบางส่วน แต่การตัดสินของศาลก็ไม่ได้เป็นไปในทางที่เอื้ออำนวยทั้งหมด ผู้พิพากษาตัดสินไม่เข้าข้างบริษัทสำหรับการพึ่งพาห้องสมุด e-book ที่ละเมิดลิขสิทธิ์ในช่วงแรกระหว่างการพัฒนา Claude CEO Dario Amodei เคยสนับสนุนการใช้เนื้อหาที่ละเมิดลิขสิทธิ์เพื่อข้ามกระบวนการขอใบอนุญาตที่ใช้เวลานาน ซึ่งการตัดสินใจนี้ขณะนี้กำลังทำลายฐานะทางกฎหมายของบริษัท
การตัดสินแบบผสมผสานนี้หมายความว่า Anthropic ยังคงเผชิญกับการพิจารณาคดีลิขสิทธิ์ที่กำหนดไว้ในเดือนธันวาคม 2024 ซึ่งบริษัทอาจเผชิญกับค่าปรับสูงสุด 150,000 ดอลลาร์สหรัฐต่อผลงานที่ละเมิดลิขสิทธิ์ที่ใช้ในการฝึก คดีนี้เน้นย้ำถึงความตึงเครียดระหว่างความต้องการข้อมูลฝึกจำนวนมหาศาลของบริษัท AI และการคุ้มครองลิขสิทธิ์ที่มีอยู่
ผลลัพธ์ทางกฎหมายที่สำคัญ:
- ชัยชนะบางส่วนสำหรับ Anthropic ในเรื่องการสแกนหนังสือภายใต้หลักคำสอน fair use
- คำตัดสินที่ไม่เป็นผลดีต่อ Anthropic สำหรับการใช้ไลบรารีหนังสืออิเล็กทรอนิกส์ที่ละเมิดลิขสิทธิ์
- การพิจารณาคดีลิขสิทธิ์ที่จะมาถึงในเดือนธันวาคม 2024 พร้อมค่าปรับที่อาจสูงถึง 150,000 ดอลลาร์สหรัฐต่อผลงานที่ละเมิดลิขสิทธิ์
ผลกระทบต่ออุตสาหกรรมการพัฒนา AI
การเปิดเผยเกี่ยวกับการทำลายหนังสือเกิดขึ้นท่ามกลางการตรวจสอบอย่างกว้างขวางเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมและแนวปฏิบัติด้านลิขสิทธิ์ของ generative AI แนวทางทางเลือกอื่นๆ มีอยู่ เช่น เทคโนโลยีการสแกนแบบไม่ทำลายที่พัฒนาโดย Internet Archive ซึ่งรักษาหนังสือต้นฉบับไว้ในขณะที่สร้างสำเนาดิจิทัล OpenAI และ Microsoft ยังได้ประกาศความร่วมมือกับ Harvard University Library เพื่อใช้หนังสือสาธารณสมบัติเกือบหนึ่งล้านเล่มสำหรับการฝึก AI ในขณะที่ยังคงรักษาการอนุรักษ์หนังสือกายภาพไว้อย่างเหมาะสม
คดีนี้สร้างแบบอย่างที่อาจมีความสำคัญสำหรับอุตสาหกรรม AI เนื่องจากอาจอนุญาตให้บริษัทต่างๆ ฝึกโมเดลด้วยเนื้อหาที่มีลิขสิทธิ์โดยไม่ต้องแจ้งสำนักพิมพ์ หากพวกเขาปฏิบัติตามวิธีการซื้อและทำลายของ Anthropic อย่างไรก็ตาม การต่อสู้ด้านลิขสิทธิ์ที่ยังคงดำเนินอยู่ทั่วทั้งอุตสาหกรรมยังคงก่อให้เกิดความเสี่ยงอย่างมาก โดยมีคดีที่เกี่ยวข้องกับ Getty Images และคดีที่ Disney ฟ้อง Midjourney ที่อาจเปลี่ยนแปลงภูมิทัศน์ทางกฎหมายสำหรับการพัฒนา generative AI