Anthropic ทำลายหนังสือกายภาพนับล้านเล่มเพื่อฝึก AI Claude เอกสารศาลเผย

ทีมบรรณาธิการ BigGo

Anthropic ทำลายหนังสือกายภาพนับล้านเล่มเพื่อฝึก AI Claude เอกสารศาลเผย

เอกสารที่ยื่นต่อศาลเมื่อเร็วๆ นี้ได้เปิดเผยแนวปฏิบัติที่เป็นที่ถกเถียงของบริษัท AI Anthropic โดยเผยให้เห็นว่าบริษัทได้ทำลายหนังสือกายภาพหลายล้านเล่มในระหว่างกระบวนการฝึกโมเดลภาษา Claude การเปิดเผยนี้ได้จุดประกายการถกเถียงเกี่ยวกับวิธีการที่บริษัทต่างๆ ใช้ในการหาข้อมูลสำหรับฝึกระบบปัญญาประดิษฐ์และขอบเขตทางกฎหมายที่เกี่ยวข้องกับลิขสิทธิ์และการใช้งานที่ยุติธรรม


การเปลี่ยนแปลงจากหนังสือกระดาษไปสู่ข้อมูลดิจิทัลแสดงผ่านภาพหนังสือสีแดงที่ปล่อยรหัสไบนารี สะท้อนถึงวิธีการที่ทำลายล้างของ Anthropic สำหรับการฝึก AI

การเปลี่ยนแปลงจากหนังสือกระดาษไปสู่ข้อมูลดิจิทัลแสดงผ่านภาพหนังสือสีแดงที่ปล่อยรหัสไบนารี สะท้อนถึงวิธีการที่ทำลายล้างของ Anthropic สำหรับการฝึก AI

กระบวนการสแกนแบบทำลายที่มีต้นทุนหลายล้าน

เอกสารศาลแสดงให้เห็นว่า Anthropic ใช้เงินหลายล้านดอลลาร์สหรัฐในการซื้อหนังสือกายภาพ ซึ่งต่อมาถูกนำไปผ่านกระบวนการสแกนแบบทำลาย บริษัทได้รื้อเล่มหนังสืออย่างเป็นระบบ สแกนหน้าต่างๆ เป็นไฟล์ PDF ที่เครื่องอ่านได้ และทิ้งสำเนาต้นฉบับกระดาษในภายหลัง วิธีการนี้ถูกเลือกใช้เพื่อเร่งกระบวนการดิจิทัลที่จำเป็นในการป้อนข้อมูลข้อความคุณภาพสูงให้กับอัลกอริทึมการฝึกของ Claude

ขนาดของการดำเนินงานนี้มีความใหญ่โต โดยมีหนังสือหลายล้านเล่มถูกดำเนินการผ่านวิธีการทำลายนี้ Anthropic มุ่งเป้าไปที่หนังสือมือสองจากช่องทางค้าปลีกเป็นหลัก เพื่อหลีกเลี่ยงความจำเป็นในการเจรจาใบอนุญาตที่ซับซ้อนกับสำนักพิมพ์ แนวทางของบริษัทได้รับอิทธิพลจากหลักการ first sale doctrine ของสหรัฐอเมริกา ซึ่งอนุญาตให้ผู้ซื้อหนังสือกายภาพสามารถจัดการกับหนังสือเหล่านั้นตามที่ต้องการหลังจากการซื้อ

กระบวนการสแกนแบบทำลาย:

หนังสือกายภาพหลายล้านเล่มถูกซื้อและทำลาย
กระบวนการประกอบด้วยการถอดเล่มออก สแกนหน้ากระดาษ ทิ้งต้นฉบับ
ค่าใช้จ่าย: หลายล้านดอลลาร์สหรัฐ
เป้าหมาย: หนังสือมือสองจากช่องทางค้าปลีกเป็นหลัก

การจ้างงานเชิงกลยุทธ์และแบบอย่างทางกฎหมาย

ในเดือนกุมภาพันธ์ 2024 Anthropic ได้จ้าง Tom Turvey ซึ่งเคยดูแลความร่วมมือสำหรับ Google Books มาก่อน โดยมอบหมายให้เขาทำหน้าที่ในการหาหนังสือจากทั่วโลก การแต่งตั้งเชิงกลยุทธ์นี้บ่งบอกว่าบริษัทมุ่งหวังที่จะทำซ้ำแบบจำลองการดิจิทัลหนังสือของ Google ที่ประสบความสำเร็จทางกฎหมาย ซึ่งศาลเคยตัดสินว่าเป็นการใช้งานที่ยุติธรรม

การตัดสินใจจ้างงานนี้พิสูจน์ให้เห็นความคิดการณ์ไกลเมื่อผู้พิพากษา William Alsup ตัดสินว่าวิธีการสแกนของ Anthropic เป็นการใช้งานที่ยุติธรรม เหตุผลของผู้พิพากษามุ่งเน้นไปที่ปัจจัยหลายประการ คือ หนังสือถูกซื้อมาอย่างถูกกฎหมาย ถูกทำลายทันทีหลังจากการสแกน และไฟล์ดิจิทัลยังคงอยู่สำหรับการใช้งานภายในเท่านั้นโดยไม่มีการแจกจ่ายภายนอก เขาอธิบายกระบวนการนี้ว่าเป็นการเปลี่ยนแปลงดิจิทัลที่ประหยัดพื้นที่พร้อมลักษณะการเปลี่ยนแปลงที่เพียงพอเพื่อมีสิทธิ์ได้รับการคุ้มครองการใช้งานที่ยุติธรรม

ชิงชัยทางกฎหมายแบบผสมผสานกับความท้าทายที่ยังคงมีอยู่

แม้ว่า Anthropic จะได้รับชัยชนะทางกฎหมายบางส่วน แต่การตัดสินของศาลก็ไม่ได้เป็นไปในทางที่เอื้ออำนวยทั้งหมด ผู้พิพากษาตัดสินไม่เข้าข้างบริษัทสำหรับการพึ่งพาห้องสมุด e-book ที่ละเมิดลิขสิทธิ์ในช่วงแรกระหว่างการพัฒนา Claude CEO Dario Amodei เคยสนับสนุนการใช้เนื้อหาที่ละเมิดลิขสิทธิ์เพื่อข้ามกระบวนการขอใบอนุญาตที่ใช้เวลานาน ซึ่งการตัดสินใจนี้ขณะนี้กำลังทำลายฐานะทางกฎหมายของบริษัท

การตัดสินแบบผสมผสานนี้หมายความว่า Anthropic ยังคงเผชิญกับการพิจารณาคดีลิขสิทธิ์ที่กำหนดไว้ในเดือนธันวาคม 2024 ซึ่งบริษัทอาจเผชิญกับค่าปรับสูงสุด 150,000 ดอลลาร์สหรัฐต่อผลงานที่ละเมิดลิขสิทธิ์ที่ใช้ในการฝึก คดีนี้เน้นย้ำถึงความตึงเครียดระหว่างความต้องการข้อมูลฝึกจำนวนมหาศาลของบริษัท AI และการคุ้มครองลิขสิทธิ์ที่มีอยู่

ผลลัพธ์ทางกฎหมายที่สำคัญ:

ชัยชนะบางส่วนสำหรับ Anthropic ในเรื่องการสแกนหนังสือภายใต้หลักคำสอน fair use
คำตัดสินที่ไม่เป็นผลดีต่อ Anthropic สำหรับการใช้ไลบรารีหนังสืออิเล็กทรอนิกส์ที่ละเมิดลิขสิทธิ์
การพิจารณาคดีลิขสิทธิ์ที่จะมาถึงในเดือนธันวาคม 2024 พร้อมค่าปรับที่อาจสูงถึง 150,000 ดอลลาร์สหรัฐต่อผลงานที่ละเมิดลิขสิทธิ์

ผลกระทบต่ออุตสาหกรรมการพัฒนา AI

การเปิดเผยเกี่ยวกับการทำลายหนังสือเกิดขึ้นท่ามกลางการตรวจสอบอย่างกว้างขวางเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมและแนวปฏิบัติด้านลิขสิทธิ์ของ generative AI แนวทางทางเลือกอื่นๆ มีอยู่ เช่น เทคโนโลยีการสแกนแบบไม่ทำลายที่พัฒนาโดย Internet Archive ซึ่งรักษาหนังสือต้นฉบับไว้ในขณะที่สร้างสำเนาดิจิทัล OpenAI และ Microsoft ยังได้ประกาศความร่วมมือกับ Harvard University Library เพื่อใช้หนังสือสาธารณสมบัติเกือบหนึ่งล้านเล่มสำหรับการฝึก AI ในขณะที่ยังคงรักษาการอนุรักษ์หนังสือกายภาพไว้อย่างเหมาะสม

คดีนี้สร้างแบบอย่างที่อาจมีความสำคัญสำหรับอุตสาหกรรม AI เนื่องจากอาจอนุญาตให้บริษัทต่างๆ ฝึกโมเดลด้วยเนื้อหาที่มีลิขสิทธิ์โดยไม่ต้องแจ้งสำนักพิมพ์ หากพวกเขาปฏิบัติตามวิธีการซื้อและทำลายของ Anthropic อย่างไรก็ตาม การต่อสู้ด้านลิขสิทธิ์ที่ยังคงดำเนินอยู่ทั่วทั้งอุตสาหกรรมยังคงก่อให้เกิดความเสี่ยงอย่างมาก โดยมีคดีที่เกี่ยวข้องกับ Getty Images และคดีที่ Disney ฟ้อง Midjourney ที่อาจเปลี่ยนแปลงภูมิทัศน์ทางกฎหมายสำหรับการพัฒนา generative AI

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌