บริษัท Thinking Machines ของ Mira Murati อดีต CTO ของ OpenAI ได้เผยแพร่งานวิจัยที่แก้ไขปัญหาสำคัญที่รบกวนการใช้งานโมเดลภาษาขนาดใหญ่ คือ พฤติกรรมที่ไม่แน่นอนในระบบการใช้งานจริง บริษัทที่ระดมทุนได้ 2 พันล้านดอลลาร์สหรัฐ กำลังแก้ไขปัญหาที่ส่งผลกระทบต่อแอปพลิเคชัน AI ในโลกแห่งความเป็นจริงที่ความสม่ำเสมอมีความสำคัญที่สุด
ข้อมูลพื้นฐานของบริษัท Thinking Machines :
- ก่อตั้งโดย Mira Murati อีกทั้งอดีต CTO ของ OpenAI
- ระดมทุนได้ 2 พันล้านดอลลาร์สหรัฐ
- ชื่อบริษัทอ้างอิงจาก Thinking Machines Corporation ของ Danny Hillis ในช่วงทศวรรษ 1980
- Thinking Machines เดิมสร้างซูเปอร์คอมพิวเตอร์ Connection Machine
- เครื่องหมายการค้าพร้อมใช้งานหลังจากบริษัทเดิมล้มละลายในปี 1994
ปัญหาหลัก: ความไม่แน่นอนในระดับ Batch
งานวิจัยเผยให้เห็นว่าความไม่แน่นอนของ LLM ไม่ได้เกี่ยวกับการตั้งค่า temperature หรือการสุ่มตัวอย่างเพียงอย่างเดียว แม้จะตั้งค่า temperature เป็นศูนย์และใช้ข้อมูลเข้าเหมือนกัน โมเดลก็สามารถสร้างผลลัพธ์ที่แตกต่างกันขึ้นอยู่กับวิธีการจัดกลุ่มคำขอเข้าด้วยกันระหว่างการประมวลผล สิ่งนี้เกิดขึ้นเพราะการประมวลผลไปข้างหน้าขาดความคงที่ของ batch หมายความว่าผลลัพธ์ของคำขอขึ้นอยู่กับขนาด batch และองค์ประกอบของคำขอแบบขนานที่ถูกประมวลผลพร้อมกัน
การค้นพบนี้ท้าทายสมมติฐานทั่วไปเกี่ยวกับความแน่นอนของ LLM นักพัฒนาหลายคนเชื่อว่าพวกเขาสามารถได้ผลลัพธ์ที่สม่ำเสมอได้โดยการควบคุมค่า random seed และพารามิเตอร์ temperature เพียงอย่างเดียว แต่ความเป็นจริงซับซ้อนกว่านั้นเมื่อต้องจัดการกับระบบ inference ระดับการใช้งานจริง
ความท้าทายทางเทคนิคหลักที่ระบุได้:
- ความไม่แน่นอนในระดับแบทช์ส่งผลต่อผลลัพธ์แม้ว่าจะตั้งค่า temperature=0
- การประมวลผลไปข้างหน้าขาด "ความคงที่ของแบทช์" ในระบบการใช้งานจริง
- ความแตกต่างของฮาร์ดแวร์ระหว่างเวอร์ชัน GPU / TPU ก่อให้เกิดความผันแปร
- การปรับปรุงของคอมไพเลอร์สามารถจัดเรียงการดำเนินการจุดทศนิยมใหม่ได้
- ระบบการอนุมานแบบหลาย GPU เพิ่มความซับซ้อนเกินกว่าการตั้งค่าแบบโหนดเดียว
ผลกระทบในโลกแห่งความเป็นจริงต่อทีมพัฒนา
พฤติกรรมที่ไม่แน่นอนสร้างความท้าทายอย่างมากสำหรับขั้นตอนการพัฒนา นักพัฒนาต้องดิ้นรนในการแบ่งปัน prompt และทำงานร่วมกันอย่างมีประสิทธิภาพเมื่อข้อมูลเข้าเดียวกันสร้างผลลัพธ์ที่แตกต่างกันในแต่ละครั้งที่รัน สิ่งนี้ทำให้เกือบเป็นไปไม่ได้ที่จะสร้าง unit test ที่เชื่อถือได้หรือกรอบการประเมินสำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI
ปัญหานี้ขยายไปเกินกว่าการทำซ้ำได้ง่าย ๆ ในอุตสาหกรรมที่มีการควบคุมอย่างเข้มงวดเช่นการเงินและบริการด้านกฎหมาย พฤติกรรมที่ไม่แน่นอนสามารถทำให้ระบบ AI ไม่สามารถใช้งานได้เนื่องจากข้อกำหนดด้านการปฏิบัติตามกฎระเบียบที่ต้องการการสร้างปฏิสัมพันธ์ของผู้ใช้ใหม่อย่างแม่นยำ
โซลูชันทางเทคนิคและการแลกเปลี่ยน
Thinking Machines พัฒนา CUDA kernel แบบกำหนดเองเพื่อให้แน่ใจว่าการดำเนินการมีความคงที่ของ batch ทำให้โมเดลสามารถสร้างผลลัพธ์เหมือนกันโดยไม่คำนึงถึงองค์ประกอบของ batch อย่างไรก็ตาม วิธีการนี้มาพร้อมกับต้นทุนด้านประสิทธิภาพและไม่ได้แก้ไขความไม่แน่นอนทุกรูปแบบในระบบ AI ที่ซับซ้อน
โซลูชันนี้ทำงานได้ดีในสภาพแวดล้อมที่ควบคุมได้ แต่เผชิญกับข้อจำกัดในคลัสเตอร์คอมพิวติ้งแบบผสมผสานที่การกำหนดค่าฮาร์ดแวร์ที่แตกต่างกันยังคงสามารถสร้างความแปรปรวนได้ ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ว่า การดำเนินการจุดทศนิยมไม่ได้มีคุณสมบัติการสลับที่เสมอไป และการเพิ่มประสิทธิภาพของคอมไพเลอร์สามารถจัดเรียงการดำเนินการใหม่ในรูปแบบที่คาดเดาไม่ได้
การถกเถียงของชุมชนเกี่ยวกับความจำเป็น
งานวิจัยนี้ได้จุดประกายการถกเถียงเกี่ยวกับว่าการกำจัดความไม่แน่นอนเป็นสิ่งที่พึงปรารถนาเสมอหรือไม่ บางคนโต้แย้งว่าความสุ่มเป็นคุณลักษณะพื้นฐานของการประมวลผลภาษาธรรมชาติ ไม่ใช่ข้อบกพร่องที่ต้องแก้ไข คนอื่น ๆ ชี้ให้เห็นว่าบริบทที่แตกต่างกันควรสร้างการตอบสนองที่แตกต่างกันตามธรรมชาติ และการบังคับให้ได้ผลลัพธ์เหมือนกันอาจลดประโยชน์ของโมเดลลงจริง ๆ
ภาษาธรรมชาติมีความคลุมเครือ มันจำเป็นต้องเป็นเช่นนั้น ฉันคิดว่าแนวทางที่นี่ในการพยายามหาวิธีทำให้วงกลมเป็นสี่เหลี่ยม และโต้แย้งว่าทำไมวงกลมควรเป็นสี่เหลี่ยม เป็นแนวทางที่ผิด
การอภิปรายนี้เน้นย้ำความตึงเครียดระหว่างความต้องการทางวิศวกรรมเชิงปฏิบัติและธรรมชาติโดยธรรมชาติของโมเดลภาษาในฐานะระบบความน่าจะเป็นที่ออกแบบมาเพื่อจัดการกับความคลุมเครือและการตอบสนองที่ขึ้นอยู่กับบริบท
มองไปข้างหน้า
แม้ว่างานของ Thinking Machines จะแสดงถึงความก้าวหน้าที่สำคัญในการทำความเข้าใจพฤติกรรมของ LLM แต่ก็เผยให้เห็นความซับซ้อนของการสร้างระบบ AI ที่เชื่อถือได้ในระดับใหญ่ งานวิจัยแสดงให้เห็นว่าการบรรลุความแน่นอนที่แท้จริงต้องใช้ความระมัดระวังในทุกระดับของสแต็กคอมพิวติ้ง ตั้งแต่ความแตกต่างของฮาร์ดแวร์ไปจนถึงการเพิ่มประสิทธิภาพของคอมไพเลอร์
สำหรับองค์กรที่ใช้งาน LLM ในการใช้งานจริง งานนี้ให้ทั้งโซลูชันและข้อมูลเชิงลึกที่น่าตกใจเกี่ยวกับความท้าทายที่รออยู่ข้างหน้า เส้นทางสู่ระบบ AI ที่เชื่อถือได้เกี่ยวข้องกับมากกว่าแค่โมเดลที่ดีกว่า มันต้องการความก้าวหน้าพื้นฐานในวิธีที่เราสร้างและดำเนินการโครงสร้างพื้นฐานที่ขับเคลื่อนพวกมัน