นักพัฒนาโต้เถียงว่า LLM สมัยใหม่เป็นเพียง Markov Chain ขั้นสูงหรือไม่

ทีมชุมชน BigGo
นักพัฒนาโต้เถียงว่า LLM สมัยใหม่เป็นเพียง Markov Chain ขั้นสูงหรือไม่

บทความล่าสุดที่สำรวจ Markov chains ในฐานะโมเดลภาษาต้นฉบับได้จุดประกายการโต้เถียงอย่างเข้มข้นในชุมชนนักพัฒนาเกี่ยวกับธรรมชาติพื้นฐานของโมเดลภาษาขนาดใหญ่สมัยใหม่ ( LLMs ) การอภิปรายนี้เผยให้เห็นความขัดแย้งทางเทคนิคอย่างลึกซึ้งว่าระบบ AI ในปัจจุบันอย่าง ChatGPT เป็นเพียง Markov chains ที่ซับซ้อนหรือเป็นสิ่งที่แตกต่างไปจากเดิมโดยพื้นฐาน

ความเชื่อมโยงกับ Markov Chain

การโต้เถียงมุ่งเน้นไปที่คุณสมบัติทางคณิตศาสตร์ที่สำคัญ คือ คุณสมบัติ Markov ซึ่งระบุว่าสถานะในอนาคตขึ้นอยู่กับสถานะปัจจุบันเท่านั้น ไม่ใช่ประวัติศาสตร์ทั้งหมด นักพัฒนาหลายคนโต้แย้งว่า LLMs แบบ decoder-only รักษาคุณสมบัตินี้ไว้เพราะพวกมันประมวลผลข้อความตามลำดับ โดยทำนายโทเค็นถัดไปตามหน้าต่างบริบทปัจจุบัน ทำให้พวกมันเป็น Markov chains ทางเทคนิค แม้ว่าจะซับซ้อนอย่างไม่น่าเชื่อก็ตาม

อย่างไรก็ตาม การเปรียบเทียบนี้มีข้อจำกัดอย่างมาก Markov chains แบบดั้งเดิมมีปัญหากับรูปแบบที่ต้องการการพึ่งพาระยะไกลหรือความสัมพันธ์หลายมิติ นักพัฒนาคนหนึ่งได้ยกตัวอย่างที่น่าสนใจ การป้อน bitmap 2D ที่มีรูปแบบแนวตั้งให้กับ Markov chain ขณะที่ประมวลผลข้อมูลจากซ้ายไปขวาทำให้มันพลาดรูปแบบไปโดยสิ้นเชิง โดยมีความแม่นยำเกือบศูนย์เมื่อภาพถูกหมุน 90 องศา

ปัญหาการระเบิดของ State Space

ปัญหาสำคัญเกิดขึ้นเมื่อพยายามขยาย Markov chains เพื่อจัดการกับการพึ่งพาที่ซับซ้อน เพื่อจับความสัมพันธ์ที่แยกจากกันด้วยข้อมูลสุ่ม state space จะเติบโตแบบเอ็กซ์โปเนนเชียล ดังที่ผู้แสดงความคิดเห็นคนหนึ่งกล่าวไว้ การสร้างโมเดลรูปแบบง่ายๆ ที่สีปรากฏหลังจากข้อมูลสุ่ม 32 บิตจะต้องเรียนรู้สถานะที่แตกต่างกัน 2^32 สถานะ ทำให้วิธีการนี้ใช้งานไม่ได้จริงโดยสิ้นเชิง

การระเบิดของ state นี้อธิบายได้ว่าทำไมกลไก attention จึงกลายเป็นสิ่งจำเป็นใน AI สมัยใหม่ ต่างจาก Markov chains แบบดั้งเดิมที่รักษาสถานะที่ใช้งานอยู่เพียงสถานะเดียว attention ช่วยให้โมเดลพิจารณาสถานะในอดีตหลายสถานะพร้อมกัน โดยชั่งน้ำหนักความเกี่ยวข้องกับการทำนายปัจจุบัน

ข้อจำกัดของ Markov Chain เทียบกับความสามารถของ LLM:

  • Markov chains แบบดั้งเดิม: สถานะที่ใช้งานเพียงสถานะเดียว การเติบโตของพื้นที่สถานะแบบเอกซ์โพเนนเชียล (2^n)
  • LLMs สมัยใหม่: กลไกความสนใจ ( attention mechanisms ) ช่วยให้สามารถพิจารณาสถานะในอดีตหลายสถานะได้
  • หน้าต่างบริบท: LLMs รักษาบริบทขนาดคงที่ (Markovian) แต่มีขนาดใหญ่กว่าห่วงโซ่แบบดั้งเดิมมาก
  • การจดจำรูปแบบ: Markov chains มีปัญหาในการจัดการกับการพึ่งพาแบบหลายมิติหรือระยะไกล

การประยุกต์ใช้จริงและข้อจำกัด

แม้จะมีข้อจำกัด Markov chains ยังคงมีคุณค่าสำหรับการทำความเข้าใจพื้นฐาน AI และการประยุกต์ใช้เฉพาะ นักพัฒนาได้แบ่งปันความทรงจำแบบโหยหาอดีตในการสร้างแชทบอท IRC และโปรแกรมจำลองการสนทนา Slack โดยใช้ Markov chains ซึ่งมักสร้างข้อความที่ไร้สาระอย่างตลกขบขัน แต่บางครั้งก็น่าเชื่อถือ

การอภิปรายยังสัมผัสถึงการประยุกต์ใช้ในอดีต ตั้งแต่การสร้างสแปมในช่วงทศวรรษ 1990 ไปจนถึงการสร้างศัพท์เทคนิคของบริษัท กรณีการใช้งานที่ง่ายกว่าเหล่านี้เน้นย้ำจุดที่ Markov chains เก่ง คือ การสร้างข้อความที่ฟังดูน่าเชื่อเมื่อไม่จำเป็นต้องมีความสอดคล้องที่สมบูรณ์แบบ

การประยุกต์ใช้ Markov Chains ในอดีต:

  • ปี 1990: การสร้างสแปมเว็บไซต์และการจัดการ SEO
  • ต้นปี 2000: แชทบอทใน IRC และโปรแกรมจำลองการสนทนา
  • การสร้างข้อความ: เครื่องมือสร้างคำศัพท์ทางธุรกิจ เครื่องมือสร้างเรียงความแบบโพสต์โมเดิร์น
  • เกม: แชทบอทเซิร์ฟเวอร์ Minecraft และแอปพลิเคชันความบันเทิง
  • การใช้งานสมัยใหม่: ยังคงใช้ในการค้นคืนข้อมูลและฟีเจอร์การนับ 3-gram

การโต้เถียงเรื่อง Reductionism

ชุมชนยังคงแบ่งออกเป็นสองฝ่ายเกี่ยวกับการเรียก LLMs ว่าเป็นเพียง Markov chains จะเป็นประโยชน์หรือทำให้เข้าใจผิด นักวิจารณ์โต้แย้งว่ากรอบความคิดนี้ประเมินความสามารถที่ปฏิวัติวงการของระบบ AI สมัยใหม่ต่ำไป พวกเขากังวลว่าแบบจำลองทางความคิดที่เรียบง่ายเกินไปทำให้ผู้คนประเมินผลกระทบที่อาจเกิดขึ้นของ AI ต่องานและสังคมต่ำเกินไป

โปรแกรมคอมพิวเตอร์ใดๆ ที่คุณสามารถรันได้คือกระบวนการ Markov เพียงแค่บอกว่า state space ของคุณคือพื้นที่ของวิธีที่เป็นไปได้ที่หน่วยความจำของคอมพิวเตอร์สามารถเป็นได้

ผู้สนับสนุนโต้กลับว่าการทำความเข้าใจ LLMs ในฐานะ Markov chains ขั้นสูงให้สัญชาตญาณที่มีค่าเกี่ยวกับพฤติกรรมและข้อจำกัดของพวกมัน ช่วยทำให้ระบบที่ซับซ้อนเหล่านี้เข้าใจง่ายขึ้นสำหรับผู้ชมในวงกว้าง

การโต้เถียงนี้สะท้อนความตึงเครียดที่กว้างขึ้นในวาทกรรม AI ระหว่างความแม่นยำทางเทคนิคและความเข้าใจเชิงปฏิบัติ ในขณะที่การจำแนกประเภททางคณิตศาสตร์มีความสำคัญสำหรับนักวิจัย ความสามารถในโลกแห่งความจริงของระบบเหล่านี้ยังคงพัฒนาต่อไปโดยไม่คำนึงถึงวิธีที่เราจัดหมวดหมู่พวกมันในทางทฤษฎี

อ้างอิง: Markov Chains are the Original Language Models