การค้นพบโดยบังเอิญและงานวิจัยที่ถูกละเลย ที่หล่อหลอม AI สมัยใหม่

ทีมชุมชน BigGo
การค้นพบโดยบังเอิญและงานวิจัยที่ถูกละเลย ที่หล่อหลอม AI สมัยใหม่

ประวัติศาสตร์ของปัญญาประดิษฐ์เต็มไปด้วยความก้าวหน้าที่ไม่คาดคิดและงานวิจัยที่ถูกละเลย ซึ่งในท้ายที่สุดก็ได้หล่อหลอมเทคโนโลยีที่เราใช้กันอยู่ในปัจจุบัน แม้ว่าโมเดลภาษาขนาดใหญ่ในปัจจุบันอย่าง ChatGPT จะดูเหมือนเป็นความก้าวหน้าที่หลีกเลี่ยงไม่ได้ แต่เส้นทางที่แท้จริงสู่ AI สมัยใหม่นั้นไม่ใช่เรื่องตรงไปตรงมาเลย โดยมีข้อมูลเชิงลึกสำคัญที่เกิดขึ้นจากงานวิจัยที่ในช่วงแรกถูกชุมชน AI กระแสหลักมองข้ามหรือประเมินค่าต่ำเกินไป

บุคคลบุกเบิกที่ถูกละเลยของการปรับแต่งโมเดลภาษา

นานก่อนที่ ChatGPT จะจับจินตนาการของสาธารณชน นักวิจัยได้วางรากฐานสำหรับระบบ AI สมัยใหม่อย่างเงียบๆ ความคิดเห็นเปิดเผยว่า ULMFiT ซึ่งพัฒนาขึ้นในปี 2018 เป็นผู้บุกเบิกแนวทางสามขั้นตอนที่ต่อมากลายเป็นแนวปฏิบัติมาตรฐานในเวลาต่อมา นั่นคือ การฝึกฝนล่วงหน้าของโมเดลภาษาบนคลังข้อความทั่วไป การปรับแต่งโมเดลด้วยข้อมูลเฉพาะทาง และจากนั้นจึงปรับให้เหมาะกับงานจำแนกประเภทเฉพาะเจาะจง ระเบียบวิธีนี้ ซึ่งใน hindsight แล้วดูเหมือนชัดเจน กลับได้รับการตอบรับแรกเริ่มด้วยความสงสัย

ULMFiT ยังเป็นผู้บุกเบิกแนวทาง 3 ขั้นตอนของการปรับแต่งโมเดลภาษาโดยใช้เป้าหมาย causal LM จากนั้นจึงปรับแต่งโมเดลนั้นด้วยเป้าหมายการจำแนกประเภท ซึ่งต่อมามีการใช้ใน GPT 3.5 instruct และในปัจจุบันถูกใช้อยู่แทบทุกแห่ง

แม้กระทั่งก่อนหน้านั้น งานวิจัยของ Dai และ Le ในปี 2015 ได้สำรวจการปรับแต่งโมเดลภาษาเพื่อทำงานปลายทาง (downstream tasks) แม้ว่าพวกเขาจะพลาดข้อมูลเชิงลึกที่สำคัญที่ว่าการฝึกฝนล่วงหน้าสำหรับจุดประสงค์ทั่วไปบนคลังข้อมูลขนาดใหญ่คือขั้นตอนแรกที่จำเป็น การมีส่วนร่วมที่เป็นรากฐานเหล่านี้แสดงให้เห็นว่าความก้าวหน้าใน AI มักสร้างขึ้นจากแนวคิดที่ในตอนแรกถูกละเลย

โมเดล AI สำคัญในประวัติศาสตร์และผลกระทบของพวกเขา:

  • ULMFiT (2018): บุกเบิกแนวทางการปรับแต่งแบบ 3 ขั้นตอนที่ใช้ใน GPT-3.5 Instruct ในภายหลัง
  • Dai และ Le (2015): การสำรวจเบื้องต้นของการปรับแต่งโมเดลภาษา ก่อนหน้า ULMFiT
  • BERT (2018): ปฏิวัติงานด้านความเข้าใจ NLP ด้วยการอ้างอิงมากกว่า 145,000 ครั้ง
  • GPT-1 (2018): โมเดลสร้างสรรค์ยุคแรกที่มีการอ้างอิง 16,000 ครั้ง เป็นรากฐานสำหรับโมเดล GPT รุ่นต่อมา
  • ModernBERT (2024): สถาปัตยกรรม BERT ที่อัปเดตใหม่ มีการดาวน์โหลดมากกว่า 1.5 ล้านครั้ง และมีรูปแบบต่างๆ มากกว่า 2,000 แบบ
ภาพประกอบกลไกความสนใจ ซึ่งเป็นแง่มุมพื้นฐานของโมเดลภาษาสมัยใหม่และกระบวนการปรับแต่ง
ภาพประกอบกลไกความสนใจ ซึ่งเป็นแง่มุมพื้นฐานของโมเดลภาษาสมัยใหม่และกระบวนการปรับแต่ง

การเกิดขึ้นอย่างไม่คาดคิดของขีดความสามารถสมัยใหม่

บางทีแง่มุมที่น่าประหลาดใจที่สุดของการพัฒนา AI คือการเกิดขึ้นของขีดความสามารถที่นักวิจัยไม่ได้คาดการณ์ไว้ ตรงข้ามกับความเชื่อโดยทั่วไป โมเดลภาษาที่ซับซ้อนในปัจจุบันไม่ได้เป็นผลมาจากแผนงานที่วางอย่างรอบคอบ แต่เกิดขึ้นจากการขยายขนาดของสถาปัตยกรรมที่มีอยู่และการค้นพบพฤติกรรมที่คาดไม่ถึง

การสนทนาของชุมชนเน้นย้ำว่าเมื่อนักวิจัยของ OpenAI สังเกตว่า GPT-2 สามารถสร้างข้อความที่ลื่นไหลได้ เป้าหมายเริ่มต้นของพวกเขาคือเพียงแค่ทำให้มันสร้างข้อความแบบสุ่มได้ดีขึ้น ความสามารถอันน่าทึ่งที่ตามมา—เช่น การตอบคำถาม การแปลภาษา การแสดงความคิดสร้างสรรค์—ส่วนใหญ่เกิดขึ้นอย่างไม่คาดคิด รูปแบบของขีดความสามารถที่เกิดขึ้นนี้ยังคงทำให้นักวิจัยสงสัย เนื่องจากเหตุผลพื้นฐานว่าทำไมการขยายขนาดจึงสร้างพฤติกรรมที่ซับซ้อนเช่นนี้ยังคงเป็นที่เข้าใจได้น้อย

ไทม์ไลน์การเกิดขึ้นของความสามารถของ AI:

  • 2014-2015: Memory Networks และ Neural Turing Machines สำรวจเรื่อง attention และ memory
  • 2018: BERT และ GPT-1 แสดงให้เห็นแนวทางที่แตกต่างกันในการสร้างแบบจำลองภาษา
  • 2018: ULMFiT สร้างระเบียบวิธีการ fine-tuning สมัยใหม่
  • 2019-2020: GPT-2/GPT-3 แสดงความสามารถที่เกิดขึ้นอย่างไม่คาดคิดผ่านการขยายขนาด
  • 2022: ChatGPT ทำให้แนวทาง fine-tuning ที่ริเริ่มมาหลายปีก่อนหน้านี้เป็นที่นิยม
แผนภาพแสดง word embeddings เน้นให้เห็นว่าโมเดลภาษาได้รับความสามารถที่ซับซ้อนผ่านสถาปัตยกรรมที่ขยายสเกลอย่างไร
แผนภาพแสดง word embeddings เน้นให้เห็นว่าโมเดลภาษาได้รับความสามารถที่ซับซ้อนผ่านสถาปัตยกรรมที่ขยายสเกลอย่างไร

วิวัฒนาการคู่ขนานของแนวทาง AI ที่แตกต่างกัน

ในขณะที่บทสนทนาในปัจจุบันมุ่งเน้นไปที่ Generative AI ความคิดเห็นเปิดเผยว่าแนวทางหลายๆ แนวทางวิวัฒนาการไปพร้อมกัน โดยแต่ละแนวทางมีจุดแข็งของตัวเอง BERT ซึ่งเปิดตัวในช่วงเวลาใกล้เคียงกับโมเดล GPT รุ่นแรกๆ ได้เดินทางมาอีกเส้นทางหนึ่งโดยมุ่งเน้นที่ความเข้าใจมากกว่าการสร้าง ด้วยจำนวนการอ้างอิงมากกว่า 145,000 ครั้ง ผลกระทบของ BERT ต่อการประมวลผลภาษาธรรมชาติ (NLP) นั้นเกิดขึ้นทันทีและลึกซึ้ง ทำให้แนวทางก่อนหน้านี้สำหรับงานต่างๆ เช่น การจดจำชื่อเอนทิตี (named entity recognition) และการจำแนกประเภทเอกสารล้าสมัยไปในทันที

ความอยู่รอดของโมเดลสไตล์ BERT สำหรับงาน NLP เฉพาะเจาะจงแสดงให้เห็นว่าภาพภูมิทัศน์ของ AI ไม่ใช่การก้าวหน้าแบบเส้นตรงง่ายๆ แต่เป็นระบบนิเวศที่หลากหลายซึ่งสถาปัตยกรรมที่แตกต่างกันเก่งกาจในแอปพลิเคชันที่ต่างกัน การพัฒนาล่าสุดอย่าง ModernBERT ซึ่งมีดาวน์โหลดมากกว่า 1.5 ล้านครั้งและมีตัวแปรมากกว่า 2,000 รูปแบบบน Hugging Face แสดงให้เห็นว่าแนวทางนี้ยังคงวิวัฒนาการและค้นหาแอปพลิเคชันใหม่ๆ ต่อไป

แนวคิดพีชคณิตเวกเตอร์ที่แสดงความสัมพันธ์ระหว่างสถาปัตยกรรมโมเดล AI ที่แตกต่างกันและฟังก์ชันการทำงานของพวกมัน
แนวคิดพีชคณิตเวกเตอร์ที่แสดงความสัมพันธ์ระหว่างสถาปัตยกรรมโมเดล AI ที่แตกต่างกันและฟังก์ชันการทำงานของพวกมัน

ผู้มองการณ์ไกลในยุคแรกและการคาดการณ์ที่ไม่เป็นที่นิยม

ท่ามกลางความประหลาดใจโดยรวมต่อความก้าวหน้าอย่างรวดเร็วของ AI นักวิจัยบางส่วนเห็นศักยภาพนี้ตั้งแต่เนิ่นๆ ความคิดเห็นระบุว่า Phil Blunsom ซึ่งเป็นผู้นำด้านการสร้างโมเดลภาษาให้กับ DeepMind เกือบสิบปี โต้แย้งที่ Oxford ว่าการแก้ปัญหาการทำนายคำถัดไปอาจเป็นเส้นทางที่ใช้การได้สู่ปัญญาประดิษฐ์ทั่วไป (artificial general intelligence) ในเวลานั้น มุมมองนี้เป็นมุมมองส่วนน้อยอย่างแน่นอน โดยนักวิจัยส่วนใหญ่พิจารณาแล้วว่าแนวทางนี้ไม่น่าจะประสบความสำเร็จ

ในทำนองเดียวกัน งานเกี่ยวกับ memory networks และ neural Turing machines ในช่วงกลางทศวรรษ 2010 ได้สำรวจการรวม attention กับ memory ในรูปแบบที่ต่อมากลายเป็นศูนย์กลางของสถาปัตยกรรม transformer การสำรวจในยุคแรกเหล่านี้แสดงให้เห็นถึงขีดความสามารถพื้นฐานในการตอบคำถามที่ล่วงล้ำระบบ AI สมัยใหม่ แม้ว่าการนำไปปฏิบัติของพวกเขาจะเป็นแบบพื้นฐานเมื่อเทียบกับมาตรฐานในปัจจุบัน

การเดินทางสู่ AI สมัยใหม่ถูกทำเครื่องหมายด้วยทั้งนวัตกรรมที่ไตร่ตรองไว้แล้วและความบังเอิญอันน่ายินดี ในขณะที่นักวิจัยยังคงผลักดันขอบเขตของความเป็นไปได้ต่อไป ประวัติศาสตร์ของการพัฒนาต่างๆ เหล่านี้ทำหน้าที่เป็นเครื่องเตือนใจว่าความก้าวหน้าทางเทคโนโลยีมักเดินตามเส้นทางที่คาดเดาไม่ได้ โดยงานวิจัยที่ถูกละเลยในวันนี้อาจกลายเป็นเทคโนโลยีที่เป็นรากฐานในวันพรุ่งนี้

อ้างอิง: A History of Large Language Models