บริษัท Thinking Machines ของ Mira Murati แก้ไขปัญหาความไม่แน่นอนของ LLM ในระบบการใช้งานจริง

ทีมชุมชน BigGo
บริษัท Thinking Machines ของ Mira Murati แก้ไขปัญหาความไม่แน่นอนของ LLM ในระบบการใช้งานจริง

บริษัท Thinking Machines ของ Mira Murati อดีต CTO ของ OpenAI ได้เผยแพร่งานวิจัยที่แก้ไขปัญหาสำคัญที่รบกวนการใช้งานโมเดลภาษาขนาดใหญ่ คือ พฤติกรรมที่ไม่แน่นอนในระบบการใช้งานจริง บริษัทที่ระดมทุนได้ 2 พันล้านดอลลาร์สหรัฐ กำลังแก้ไขปัญหาที่ส่งผลกระทบต่อแอปพลิเคชัน AI ในโลกแห่งความเป็นจริงที่ความสม่ำเสมอมีความสำคัญที่สุด

ข้อมูลพื้นฐานของบริษัท Thinking Machines :

  • ก่อตั้งโดย Mira Murati อีกทั้งอดีต CTO ของ OpenAI
  • ระดมทุนได้ 2 พันล้านดอลลาร์สหรัฐ
  • ชื่อบริษัทอ้างอิงจาก Thinking Machines Corporation ของ Danny Hillis ในช่วงทศวรรษ 1980
  • Thinking Machines เดิมสร้างซูเปอร์คอมพิวเตอร์ Connection Machine
  • เครื่องหมายการค้าพร้อมใช้งานหลังจากบริษัทเดิมล้มละลายในปี 1994

ปัญหาหลัก: ความไม่แน่นอนในระดับ Batch

งานวิจัยเผยให้เห็นว่าความไม่แน่นอนของ LLM ไม่ได้เกี่ยวกับการตั้งค่า temperature หรือการสุ่มตัวอย่างเพียงอย่างเดียว แม้จะตั้งค่า temperature เป็นศูนย์และใช้ข้อมูลเข้าเหมือนกัน โมเดลก็สามารถสร้างผลลัพธ์ที่แตกต่างกันขึ้นอยู่กับวิธีการจัดกลุ่มคำขอเข้าด้วยกันระหว่างการประมวลผล สิ่งนี้เกิดขึ้นเพราะการประมวลผลไปข้างหน้าขาดความคงที่ของ batch หมายความว่าผลลัพธ์ของคำขอขึ้นอยู่กับขนาด batch และองค์ประกอบของคำขอแบบขนานที่ถูกประมวลผลพร้อมกัน

การค้นพบนี้ท้าทายสมมติฐานทั่วไปเกี่ยวกับความแน่นอนของ LLM นักพัฒนาหลายคนเชื่อว่าพวกเขาสามารถได้ผลลัพธ์ที่สม่ำเสมอได้โดยการควบคุมค่า random seed และพารามิเตอร์ temperature เพียงอย่างเดียว แต่ความเป็นจริงซับซ้อนกว่านั้นเมื่อต้องจัดการกับระบบ inference ระดับการใช้งานจริง

ความท้าทายทางเทคนิคหลักที่ระบุได้:

  • ความไม่แน่นอนในระดับแบทช์ส่งผลต่อผลลัพธ์แม้ว่าจะตั้งค่า temperature=0
  • การประมวลผลไปข้างหน้าขาด "ความคงที่ของแบทช์" ในระบบการใช้งานจริง
  • ความแตกต่างของฮาร์ดแวร์ระหว่างเวอร์ชัน GPU / TPU ก่อให้เกิดความผันแปร
  • การปรับปรุงของคอมไพเลอร์สามารถจัดเรียงการดำเนินการจุดทศนิยมใหม่ได้
  • ระบบการอนุมานแบบหลาย GPU เพิ่มความซับซ้อนเกินกว่าการตั้งค่าแบบโหนดเดียว

ผลกระทบในโลกแห่งความเป็นจริงต่อทีมพัฒนา

พฤติกรรมที่ไม่แน่นอนสร้างความท้าทายอย่างมากสำหรับขั้นตอนการพัฒนา นักพัฒนาต้องดิ้นรนในการแบ่งปัน prompt และทำงานร่วมกันอย่างมีประสิทธิภาพเมื่อข้อมูลเข้าเดียวกันสร้างผลลัพธ์ที่แตกต่างกันในแต่ละครั้งที่รัน สิ่งนี้ทำให้เกือบเป็นไปไม่ได้ที่จะสร้าง unit test ที่เชื่อถือได้หรือกรอบการประเมินสำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI

ปัญหานี้ขยายไปเกินกว่าการทำซ้ำได้ง่าย ๆ ในอุตสาหกรรมที่มีการควบคุมอย่างเข้มงวดเช่นการเงินและบริการด้านกฎหมาย พฤติกรรมที่ไม่แน่นอนสามารถทำให้ระบบ AI ไม่สามารถใช้งานได้เนื่องจากข้อกำหนดด้านการปฏิบัติตามกฎระเบียบที่ต้องการการสร้างปฏิสัมพันธ์ของผู้ใช้ใหม่อย่างแม่นยำ

โซลูชันทางเทคนิคและการแลกเปลี่ยน

Thinking Machines พัฒนา CUDA kernel แบบกำหนดเองเพื่อให้แน่ใจว่าการดำเนินการมีความคงที่ของ batch ทำให้โมเดลสามารถสร้างผลลัพธ์เหมือนกันโดยไม่คำนึงถึงองค์ประกอบของ batch อย่างไรก็ตาม วิธีการนี้มาพร้อมกับต้นทุนด้านประสิทธิภาพและไม่ได้แก้ไขความไม่แน่นอนทุกรูปแบบในระบบ AI ที่ซับซ้อน

โซลูชันนี้ทำงานได้ดีในสภาพแวดล้อมที่ควบคุมได้ แต่เผชิญกับข้อจำกัดในคลัสเตอร์คอมพิวติ้งแบบผสมผสานที่การกำหนดค่าฮาร์ดแวร์ที่แตกต่างกันยังคงสามารถสร้างความแปรปรวนได้ ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ว่า การดำเนินการจุดทศนิยมไม่ได้มีคุณสมบัติการสลับที่เสมอไป และการเพิ่มประสิทธิภาพของคอมไพเลอร์สามารถจัดเรียงการดำเนินการใหม่ในรูปแบบที่คาดเดาไม่ได้

การถกเถียงของชุมชนเกี่ยวกับความจำเป็น

งานวิจัยนี้ได้จุดประกายการถกเถียงเกี่ยวกับว่าการกำจัดความไม่แน่นอนเป็นสิ่งที่พึงปรารถนาเสมอหรือไม่ บางคนโต้แย้งว่าความสุ่มเป็นคุณลักษณะพื้นฐานของการประมวลผลภาษาธรรมชาติ ไม่ใช่ข้อบกพร่องที่ต้องแก้ไข คนอื่น ๆ ชี้ให้เห็นว่าบริบทที่แตกต่างกันควรสร้างการตอบสนองที่แตกต่างกันตามธรรมชาติ และการบังคับให้ได้ผลลัพธ์เหมือนกันอาจลดประโยชน์ของโมเดลลงจริง ๆ

ภาษาธรรมชาติมีความคลุมเครือ มันจำเป็นต้องเป็นเช่นนั้น ฉันคิดว่าแนวทางที่นี่ในการพยายามหาวิธีทำให้วงกลมเป็นสี่เหลี่ยม และโต้แย้งว่าทำไมวงกลมควรเป็นสี่เหลี่ยม เป็นแนวทางที่ผิด

การอภิปรายนี้เน้นย้ำความตึงเครียดระหว่างความต้องการทางวิศวกรรมเชิงปฏิบัติและธรรมชาติโดยธรรมชาติของโมเดลภาษาในฐานะระบบความน่าจะเป็นที่ออกแบบมาเพื่อจัดการกับความคลุมเครือและการตอบสนองที่ขึ้นอยู่กับบริบท

มองไปข้างหน้า

แม้ว่างานของ Thinking Machines จะแสดงถึงความก้าวหน้าที่สำคัญในการทำความเข้าใจพฤติกรรมของ LLM แต่ก็เผยให้เห็นความซับซ้อนของการสร้างระบบ AI ที่เชื่อถือได้ในระดับใหญ่ งานวิจัยแสดงให้เห็นว่าการบรรลุความแน่นอนที่แท้จริงต้องใช้ความระมัดระวังในทุกระดับของสแต็กคอมพิวติ้ง ตั้งแต่ความแตกต่างของฮาร์ดแวร์ไปจนถึงการเพิ่มประสิทธิภาพของคอมไพเลอร์

สำหรับองค์กรที่ใช้งาน LLM ในการใช้งานจริง งานนี้ให้ทั้งโซลูชันและข้อมูลเชิงลึกที่น่าตกใจเกี่ยวกับความท้าทายที่รออยู่ข้างหน้า เส้นทางสู่ระบบ AI ที่เชื่อถือได้เกี่ยวข้องกับมากกว่าแค่โมเดลที่ดีกว่า มันต้องการความก้าวหน้าพื้นฐานในวิธีที่เราสร้างและดำเนินการโครงสร้างพื้นฐานที่ขับเคลื่อนพวกมัน

อ้างอิง: Defining NonDeterminism in LLM Inference