Swiss AI ได้เปิดตัว Apertus โมเดลภาษาโอเพนซอร์สใหม่ที่มุ่งแก้ไขความกังวลที่เพิ่มขึ้นเกี่ยวกับการปฏิบัติตามกฎหมายลิขสิทธิ์และความโปร่งใสของข้อมูลในการฝึก AI โมเดลนี้มีเวอร์ชัน 70B และ 8B parameter และเป็นก้าวสำคัญสู่การพัฒนา AI ที่โปร่งใสอย่างสมบูรณ์
ข้อมูลจำเพาะของโมเดล
- พารามิเตอร์: มีเวอร์ชัน 70B และ 8B
- ข้อมูลการฝึก: 15T โทเค็นพร้อมหลักสูตรแบบขั้นตอน (เว็บ, โค้ด, คณิตศาสตร์)
- ความยาวบริบท: 65,536 โทเค็น
- ภาษาที่รองรับ: 1,811 ภาษา
- สถาปัตยกรรม: Transformer decoder พร้อมฟังก์ชันการเปิดใช้งาน xILU
- ฮาร์ดแวร์การฝึก: 4,096 GH200 GPUs
การปฏิบัติตามกฎหมายลิขสิทธิ์เป็นจุดสำคัญ
ชุมชนเทคโนโลยีให้ความสนใจเป็นพิเศษกับแนวทางของ Apertus ในการจัดการข้อมูลการฝึก ไม่เหมือนกับโมเดลเชิงพาณิชย์หลายตัวที่ดึงเนื้อหาจากเว็บโดยไม่ได้รับอนุญาตอย่างชัดเจน Apertus อ้างว่าเคารพการยินยอมแบบ opt-out จากเจ้าของข้อมูล แม้กระทั่งย้อนหลัง ซึ่งหมายความว่าหากผู้สร้างเนื้อหาขอให้ลบข้อมูลของพวกเขา นักพัฒนาโมเดลจะให้เกียรติคำขอเหล่านั้น อย่างไรก็ตาม สมาชิกชุมชนบางคนตั้งคำถามว่าระบบ opt-out นี้แก้ปัญหาลิขสิทธิ์ได้จริงหรือไม่ โดยชี้ให้เห็นว่ามันยังคงวางภาระให้ผู้สร้างเนื้อหาต้องปกป้องผลงานของตนเองอย่างแข็งขัน
คุณสมบัติด้านกฎหมายและการปฏิบัติตามข้อกำหนด
- มีเอกสารความโปร่งใสตาม EU AI Act
- มีเอกสารแนวปฏิบัติ Code of Practice
- มีกระบวนการขอลบข้อมูลส่วนบุคคลและลิขสิทธิ์
- อีเมลติดต่อ: [email protected], [email protected]
- วางแผนระบบกรองข้อมูลส่วนบุคคลในผลลัพธ์ (ตรวจสอบทุก 6 เดือน)
- เคารพการยินยอมแบบ opt-out ย้อนหลัง
ประสิทธิภาพเทียบเท่าโมเดลที่มีอายุหนึ่งปี
การประเมินเบื้องต้นชี้ให้เห็นว่า Apertus มีประสิทธิภาพเทียบเคียงได้กับ Llama 3.1 ของ Meta ที่เปิดตัวเมื่อประมาณหนึ่งปีที่แล้ว โมเดลแสดงความสามารถด้านความรู้ทั่วไปในระดับดี แต่ยังล้าหลังในด้านเฉพาะทาง เช่น งานเขียนโค้ดและการใช้เหตุผล สำหรับโมเดลแบบเปิดทั้งหมดที่ฝึกด้วยข้อมูลที่ปฏิบัติตามกฎระเบียบ ระดับประสิทธิภาพนี้ถือเป็นความสำเร็จที่มีความหมาย แม้ว่าจะเน้นย้ำถึงความท้าทายที่ยังคงอยู่ในการเทียบเคียงกับโมเดลแบบปิดที่อาจใช้วิธีการรวบรวมข้อมูลแบบก้าวร้าวมากกว่า
การเปรียบเทียบคุณสมบัติหลัก
คุณสมบัติ | Apertus | โมเดลปิดทั่วไป |
---|---|---|
ความโปร่งใสของข้อมูลการฝึก | เปิดเผยอย่างเต็มรูปแบบ | เป็นกรรมสิทธิ์/ไม่เปิดเผย |
การปฏิบัติตามลิขสิทธิ์ | เคารพการยินยอมแบบ opt-out | แตกต่างกัน/ไม่ชัดเจน |
น้ำหนักโมเดล | โอเพนซอร์ส | ปิด/API เท่านั้น |
การรองรับภาษา | 1,811 ภาษา | โดยทั่วไป <100 ภาษา |
ประสิทธิภาพเทียบกับ Llama 3.1 | เทียบเคียงได้ (ทั่วไป), ตามหลัง (โค้ด/การใช้เหตุผล) | มักจะเหนือกว่า |
การรองรับภาษาหลากหลายอย่างมหาศาล
หนึ่งในคุณสมบัติที่โดดเด่นของ Apertus คือการรองรับภาษามากกว่า 1,800 ภาษา ทำให้เป็นหนึ่งในโมเดลที่มีความหลากหลายทางภาษาสูงสุดที่มีอยู่ การครอบคลุมภาษาอย่างกว้างขวางนี้ ร่วมกับหน้าต่างบริบท 65,536 โทเค็น ทำให้โมเดลมีค่าเป็นพิเศษสำหรับการใช้งานระดับโลกและการประมวลผลเนื้อหาแบบยาว
โมเดลได้รับการฝึกด้วยข้อมูล 15 ล้านล้านโทเค็น โดยใช้ GPU GH200 เฉพาะทาง 4,096 ตัว ซึ่งแสดงให้เห็นถึงทรัพยากรการคำนวณที่มากมายที่จำเป็นสำหรับการพัฒนา AI สมัยใหม่ Swiss AI ได้ให้คำมั่นว่าจะเปิดเผยไม่เพียงแค่น้ำหนักของโมเดล แต่ยังรวมถึงข้อมูลการฝึกที่สมบูรณ์ สูตรการฝึก และจุดตรวจสอบระหว่างกลาง
ชุมชนเรียกร้องมาตรฐานข้อมูลที่สะอาด
การเปิดตัวนี้ได้จุดประกายการอภิปรายในวงกว้างเกี่ยวกับความจำเป็นในการมีโมเดลมากขึ้นที่ฝึกด้วยชุดข้อมูลที่สะอาดและสามารถติดตามได้ ดังที่ผู้สังเกตการณ์ชุมชนคนหนึ่งกล่าวไว้ มีความต้องการที่เพิ่มขึ้นสำหรับทางเลือกอื่นแทนโมเดลแบบปิดที่ภายหลังพบว่าได้รับการฝึกจากการสนทนาในโซเชียลมีเดียและแหล่งข้อมูลที่น่าสงสัยอื่นๆ
ในความคิดของผม เราต้องการโมเดลมากขึ้นที่ฝึกด้วยข้อมูลที่สะอาดและสามารถติดตามได้อย่างสมบูรณ์ แทนที่จะเป็นโมเดลแบบปิดที่เราพบภายหลังว่าได้รับการฝึกจากกระทู้สนทนาใน Reddit และ Facebook
แม้ว่าบางคนจะมองว่า Apertus อาจตายตั้งแต่เกิดเนื่องจากช่องว่างด้านประสิทธิภาพ แต่คนอื่นๆ มองว่าเป็นก้าวสำคัญสู่การสร้างมาตรฐานใหม่สำหรับการพัฒนา AI อย่างมีจริยธรรม การปฏิบัติตามข้อกำหนดของ EU AI Act และการให้เอกสารความโปร่งใสของโมเดลชี้ให้เห็นว่าอาจดึงดูดองค์กรที่ให้ความสำคัญกับการปฏิบัติตามกฎระเบียบมากกว่าประสิทธิภาพที่ล้ำสมัย
อ้างอิง: swiss-ai/Apertus-708-2509