มหาวิทยาลัยสวิสเตรียมเปิดตัว LLM โอเพนซอร์สเต็มรูปแบบที่รองรับกว่า 1,000 ภาษา

ทีมชุมชน BigGo

มหาวิทยาลัยสวิสเตรียมเปิดตัว LLM โอเพนซอร์สเต็มรูปแบบที่รองรับกว่า 1,000 ภาษา

สถาบันการศึกษาสวิส ETH Zurich และ EPFL กำลังเตรียมเปิดตัวโมเดลภาษาขนาดใหญ่ที่ล้ำสมัยซึ่งสัญญาว่าจะมีความโปร่งใสอย่างสมบูรณ์ในพื้นที่ AI กำหนดเปิดตัวในช่วงปลายฤดูร้อน 2025 โมเดลนี้โดดเด่นไม่เพียงแค่ด้วยความสามารถทางเทคนิคเท่านั้น แต่ยังด้วยความมุ่งมั่นต่อการเปิดเผยข้อมูลอย่างเต็มรูปแบบ ซึ่งเป็นสิ่งที่จุดประกายการอภิปรายอย่างมากในชุมชนเทคโนโลยีเกี่ยวกับความหมายที่แท้จริงของการเปิดเผยในการพัฒนา AI

ข้อมูลจำเพาะของโมเดล:

พารามิเตอร์: เวอร์ชัน 8 พันล้านและ 70 พันล้านพารามิเตอร์
ภาษา: รองรับมากกว่า 1,000 ภาษา
ข้อมูลการฝึกอบรม: มากกว่า 15 ล้านล้านโทเค็น (60% ภาษาอังกฤษ, 40% ภาษาอื่นๆ ที่ไม่ใช่ภาษาอังกฤษ)
กำหนดการเปิดตัว: ปลายฤดูร้อน 2025
ใบอนุญาต: Apache 2.0


โมเดลภาษาที่พัฒนาผ่านความร่วมมือระหว่าง ETH Zurich และ EPFL โดยเน้นความโปร่งใสและความเปิดกว้างใน AI

ความท้าทายด้านโครงสร้างพื้นฐานและเส้นโค้งการเรียนรู้

ชุมชนได้เน้นย้ำถึงความกังวลที่สำคัญเกี่ยวกับความซับซ้อนทางเทคนิคของการฝึกโมเดลขนาดใหญ่ ผู้สังเกตการณ์หลายคนสังเกตว่าแม้สถาบันสวิสจะมีความสามารถพิเศษ แต่อาจขาดประสบการณ์ที่กว้างขวางในด้านโครงสร้างพื้นฐาน AI ขนาดใหญ่ ซูเปอร์คอมพิวเตอร์ Alps ที่ CSCS ซึ่งติดตั้ง NVIDIA Grace Hopper Superchips กว่า 10,000 ตัว แสดงถึงการลงทุนครั้งใหญ่ในความสามารถ AI อธิปไตย แต่การทำให้ระบบดังกล่าวทำงานได้อย่างเหมาะสมนั้นเป็นที่ทราบกันดีว่ายากมาก

การฝึกในระดับนี้เกี่ยวข้องกับมากกว่าการโหลดชุดข้อมูลและรันอัลกอริทึมเพียงอย่างเดียว วิศวกรต้องจัดการกับปัญหาความล่าช้าระหว่างโหนด ออกแบบระบบการกู้คืนข้อผิดพลาดที่แข็งแกร่ง เพิ่มการใช้ประโยชน์ฮาร์ดแวร์ให้สูงสุด และจัดการการประสานงานที่ซับซ้อนของทรัพยากรคอมพิวติ้งแบบกระจาย เส้นโค้งการเรียนรู้มีความชันมาก และแม้แต่โครงการที่ได้รับการสนับสนุนทุนดีก็อาจประสบปัญหากับความท้าทายเหล่านี้

รายละเอียดโครงสร้างพื้นฐาน:

แพลตฟอร์มการฝึกอบรม: ซูเปอร์คอมพิวเตอร์ " Alps " ที่ CSCS
ฮาร์ดแวร์: NVIDIA Grace Hopper Superchips กว่า 10,000 ตัว
แหล่งพลังงาน: ไฟฟ้าคาร์บอนนิวทรัล 100%
การเข้าถึง: ชั่วโมง GPU กว่า 20 ล้านชั่วโมงต่อปี
ความร่วมมือ: การร่วมมือกับ NVIDIA และ HPE/Cray นานกว่า 15 ปี

การอภิปรายเรื่องความโปร่งใสของชุดข้อมูล

หนึ่งในประเด็นที่ถูกพูดถึงมากที่สุดคือการอ้างของโครงการเกี่ยวกับความโปร่งใสของชุดข้อมูล แม้ว่าการประกาศจะสัญญาว่าข้อมูลการฝึกจะโปร่งใสและสามารถทำซ้ำได้ แต่สมาชิกชุมชนกำลังตั้งคำถามว่าสิ่งนี้หมายความว่าอย่างไรในทางปฏิบัติ ความท้าทายอยู่ที่ขนาดที่ใหญ่มาก เนื่องจากชุดข้อมูลการฝึกมักมีขนาดหลายร้อยเทราไบต์ การให้ข้อมูลดิบทั้งหมดอาจไม่สามารถทำได้ในทางปฏิบัติ

สถานการณ์ที่น่าจะเป็นไปได้มากกว่าคือการให้รายการ URL หรือการอ้างอิงไปยังวัสดุต้นฉบับแทนที่จะเป็นเนื้อหาจริง อย่างไรก็ตาม วิธีการนี้ทำให้เกิดคำถามเกี่ยวกับการทำซ้ำที่แท้จริง โดยเฉพาะอย่างยิ่งเนื่องจากเนื้อหาเว็บเปลี่ยนแปลงตลอดเวลา บางคนแนะนำว่าสิ่งนี้ยังคงสามารถแสดงถึงความก้าวหน้าเมื่อเทียบกับแนวทางปฏิบัติในอุตสาหกรรมปัจจุบันที่ข้อมูลการฝึกยังคงไม่โปร่งใสอย่างสมบูรณ์

การมุ่งเน้นหลายภาษาและคำถามเรื่องประสิทธิภาพ

การรองรับกว่า 1,000 ภาษาของโมเดลได้สร้างความสนใจ แม้ว่าการอภิปรายในชุมชนจะเผยให้เห็นความสงสัยเกี่ยวกับประสิทธิภาพเมื่อเปรียบเทียบกับโมเดลที่ทันสมัยที่สุด ด้วยข้อมูลการฝึกที่แบ่งประมาณ 60% ภาษาอังกฤษ และ 40% เนื้อหาที่ไม่ใช่ภาษาอังกฤษในกว่า 1,500 ภาษา คำถามยังคงอยู่ว่าวิธีการกว้างขวางนี้อาจทำให้ประสิทธิภาพในภาษาหลักลดลงหรือไม่

โครงการจะเปิดตัวโมเดลในเวอร์ชัน 8 พันล้านและ 70 พันล้านพารามิเตอร์ โดยโมเดลที่ใหญ่กว่าจะถูกวางตำแหน่งให้แข่งขันในหมู่โมเดลเปิดเต็มรูปแบบที่ทรงพลังที่สุดในโลก อย่างไรก็ตาม หากไม่มีผลการทดสอบหรือการเปรียบเทียบประสิทธิภาพ ชุมชนยังคงระมัดระวังเกี่ยวกับความสามารถที่แท้จริง

ภาพรวมของ Swiss AI Initiative:

วันที่เปิดตัว: ธันวาคม 2023
สถาบันหลัก: ETH Zurich, EPFL
สถาบันที่เข้าร่วม: สถาบันการศึกษาของ Swiss มากกว่า 10 แห่ง
นักวิจัยที่เข้าร่วม: มากกว่า 800 คน
ระยะเวลาการสนับสนุนทุน: 2025-2028 (การสนับสนุนจาก ETH Board)
ขอบเขต: ความพยายามในการสร้างโมเดลพื้นฐาน AI แบบวิทยาศาสตร์เปิดที่ใหญ่ที่สุดในโลก

การเคลื่อนไหวเพื่ออธิปไตย AI ของยุโรป

ความคิดริเริ่มนี้สะท้อนถึงความพยายามของยุโรปในวงกว้างเพื่อลดการพึ่งพิงระบบ AI ที่พัฒนาใน สหรัฐอเมริกา และ จีน การเน้นย้ำเรื่องการเคารพการปฏิเสธการคลานเว็บและการปฏิบัติตามข้อกำหนด EU AI Act แสดงให้เห็นถึงวิธีการที่ให้ความสำคัญกับการปฏิบัติตามกฎหมายมากกว่าประสิทธิภาพสูงสุด ซึ่งเป็นการแลกเปลี่ยนที่สร้างปฏิกิริยาที่หลากหลาย

LLM แบบเปิดถูกมองมากขึ้นว่าเป็นทางเลือกที่น่าเชื่อถือแทนระบบเชิงพาณิชย์ ซึ่งส่วนใหญ่ถูกพัฒนาอย่างลับๆ ใน สหรัฐอเมริกา หรือ จีน

โครงการนี้แสดงถึงมากกว่าการเปิดตัวโมเดล AI อีกตัวหนึ่ง มันเป็นส่วนหนึ่งของ Swiss AI Initiative ที่เกี่ยวข้องกับนักวิจัยกว่า 800 คน และได้รับการสนับสนุนด้วยเงินทุนสาธารณะจำนวนมากจนถึง 2028 ขนาดการลงทุนนี้แสดงให้เห็นถึงความมุ่งมั่นอย่างจริงจังในการสร้างความสามารถ AI ของยุโรป แม้ว่าความสำเร็จจะขึ้นอยู่กับการดำเนินการและประสิทธิภาพในโลกแห่งความเป็นจริงเมื่อโมเดลเปิดตัวในที่สุด

ชุมชนเทคโนโลยีจะจับตาดูอย่างใกล้ชิดเมื่อมีการเปิดเผยการทดสอบและความสามารถที่แท้จริงในปลายปีนี้ เนื่องจากสิ่งนี้อาจสร้างแบบอย่างที่สำคัญสำหรับการพัฒนา AI โอเพนซอร์สและการแข่งขันระหว่างประเทศในสาขานี้

อ้างอิง: A language model built for the public good

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌