ชุมชนนักวิจัย AI กำลังถกเถียงกันอย่างเข้มข้นเกี่ยวกับหนึ่งในทฤษฎีที่มีอิทธิพลมากที่สุดในสาขานี้ ขณะที่ต้นทุนการนำไปใช้ในโลกจริงเผยให้เห็นความซับซ้อนที่ไม่คาดคิด The Bitter Lesson ของ Rich Sutton ซึ่งโต้แย้งว่าการขยายขนาดการประมวลผลและข้อมูลให้ผลดีกว่าแนวทางที่อิงความรู้ของมนุษย์อย่างสม่ำเสมอ กำลังเผชิญกับการตรวจสอบจากผู้ปฏิบัติงานที่เห็นความเป็นจริงที่มีความซับซ้อนมากขึ้นกำลังเกิดขึ้น
ทฤษฎีเดิมเสนอแนะให้แบ่งแยกอย่างชัดเจนระหว่างแนวทางการพัฒนา AI สองแบบ: วิธีการที่อิงตามความรู้ของมนุษย์ เทียบกับวิธีการที่ขยายขนาดด้วยข้อมูลและพลังการประมวลผล ข้อโต้แย้งของ Sutton มีน้ำหนัก - ในอดีต ความก้าวหน้าครั้งใหญ่ที่สุดมาจากการใช้ทรัพยากรการประมวลผลมากขึ้นกับปัญหา มากกว่าการสร้างสรรค์ข้อมูลเชิงลึกของมนุษย์ลงในระบบอย่างระมัดระวัง
ต้นทุนที่ซ่อนเร้นของการขยายข้อมูลแบบบริสุทธิ์
อย่างไรก็ตาม การอภิปรายในชุมชนเผยให้เห็นสิ่งที่บางคนเรียกว่า Harsh Reality เบื้องหลัง The Bitter Lesson แม้ว่าการขยายขนาดอาจใช้ได้ในทางทฤษฎี แต่บริษัท AI ชั้นนำในปัจจุบันกำลังใช้จ่ายหลายพันล้านดอลลาร์สำหรับการคัดสรรข้อมูลและการควบคุมคุณภาพ นี่ไม่ใช่แค่การรวบรวมข้อมูลมากขึ้น - แต่เป็นการคัดเลือก ตรวจสอบ และประมวลผลข้อมูลคุณภาพสูงอย่างระมัดระวังด้วยการดูแลของมนุษย์อย่างกว้างขวาง
การเปลี่ยนแปลงชัดเจนขึ้นเมื่อเปรียบเทียบระบบ AI รุ่นเก่ากับรุ่นใหม่ โมเดลเก่าสำหรับงานอย่างการตรวจจับใบหน้าสามารถทำงานกับภาพใบหน้าใดก็ได้ ไม่ว่าคุณภาพจะเป็นอย่างไร ระบบ AI สนทนาในปัจจุบันต้องการชุดข้อมูลที่คัดสรรมาอย่างดีเพื่อหลีกเลี่ยงการสร้างผลลัพธ์ที่เป็นอันตรายหรือไร้ประโยชน์ ความแตกต่างอยู่ที่การเปลี่ยนจากการจดจำรูปแบบง่ายๆ ไปสู่การสร้างผู้ช่วย AI ที่มีประโยชน์อย่างแท้จริง
การเปรียบเทียบต้นทุน: การลงทุนในการคัดสรรข้อมูล
- AI แบบดั้งเดิม (ก่อนปี 2020): ต้นทุนการคัดสรรข้อมูลน้อยมาก อาศัยชุดข้อมูลดิบ
- LLMs สมัยใหม่ (2023-2024): ลงทุนหลายพันล้านถึงหลายหมื่นล้าน USD ในการรวบรวม ตรวจสอบ และประมวลผลข้อมูล
- โครงการขนาดเล็ก: โมเดลง่าย ๆ มักจะทำงานได้ดีกว่าโครงข่ายประสาทเทียมเมื่อข้อมูลมีจำกัด
ปัญหาการแบ่งแยกที่ผิดพลาด
นักวิจารณ์โต้แย้งว่า The Bitter Lesson สร้างทางเลือกเทียมระหว่างความรู้ของมนุษย์และการขยายขนาดการประมวลผล ในทางปฏิบัติ ไม่มีโมเดลการเรียนรู้ของเครื่องใดที่มีอยู่โดยไม่มีความรู้ของมนุษย์ - มนุษย์ออกแบบสถาปัตยกรรม เลือกวิธีการฝึก และประเมินผลลัพธ์ ในทำนองเดียวกัน ไม่มีระบบ AI ที่มีประโยชน์ใดที่อาศัยเพียงความรู้ของมนุษย์ที่เขียนโค้ดไว้แข็งตายโดยไม่มีส่วนประกอบการเรียนรู้ใดๆ
วิวัฒนาการของเครื่องมือเล่นหมากรุกให้ตัวอย่างที่สมบูรณ์แบบ Stockfish เดิมใช้ความรู้หมากรุกอย่างกว้างขวางที่สร้างโดยผู้เชี่ยวชาญ Leela Chess Zero จากนั้นก็เอาชนะมันโดยใช้การเรียนรู้เสริมแรงแบบบริสุทธิ์โดยไม่มีความรู้หมากรุกเลย แต่จุดพลิกผันสุดท้ายมาถึงเมื่อ Stockfish รวมทั้งสองแนวทางเข้าด้วยกัน - เพิ่มโครงข่ายประสาทเทียมเข้ากับฐานความรู้ที่มีอยู่ - และคืนตำแหน่งอันดับหนึ่งมาได้อย่างง่ายดาย
ไทม์ไลน์วิวัฒนาการของเครื่องมือเล่นหมากรุก
- ยุค Stockfish: ความรู้หมากรุกของมนุษย์ + อัลกอริทึมแบบดั้งเดิม
- Leela Chess Zero: การเรียนรู้เสริมแรงแบบบริสุทธิ์ ไม่มีความรู้เรื่องหมากรุก → เอาชนะ Stockfish ได้
- Stockfish สมัยใหม่: แนวทางผสมผสาน (โครงข่ายประสาทเทียม + ความรู้ของมนุษย์) → กลับมาครองตำแหน่งอันดับหนึ่งอีกครั้ง
แนวทางสเปกตรัม
แทนที่จะมองเป็นทางเลือกแบบเลือกอย่างใดอย่างหนึ่ง ผู้ปฏิบัติงานกำลังใช้แนวทางสเปกตรัม พวกเขาเริ่มต้นด้วยวิธีการทั่วไปกว้างๆ ในช่วงต้นของการพัฒนา จากนั้นค่อยๆ เพิ่มความรู้และคำแนะนำของมนุษย์ที่เฉพาะเจาะจงมากขึ้นตามความจำเป็น นี่อาจเริ่มต้นด้วยการเรียนรู้แบบกำกับตนเองบนชุดข้อมูลขนาดใหญ่ จากนั้นย้ายไปยังข้อมูลที่คัดสรรในโดเมนเฉพาะ และสุดท้ายรวมถึงข้อเสนอแนะและการประเมินของมนุษย์
กระบวนการสร้างโมเดลทั้งหมดได้รับการแนะนำโดยความรู้ในโดเมน วิธีการที่ใช้ความรู้นี้มีตั้งแต่แบบ 'โดยตรง' ไปจนถึงแบบ 'มีอิทธิพล'
แนวทางนี้ยอมรับว่าขั้นตอนต่างๆ ของการพัฒนา AI ได้ประโยชน์จากสมดุลที่แตกต่างกันระหว่างระบบอัตโนมัติและข้อมูลเชิงลึกของมนุษย์ กุญแจสำคัญคือการเลือกจุดปฏิบัติการที่เหมาะสมในสเปกตรัมนี้สำหรับแต่ละส่วนของกระบวนการพัฒนา
แนวทางสเปกตรัมการพัฒนา AI
- ระยะเริ่มต้น: การเรียนรู้แบบ self-supervision บนชุดข้อมูลขนาดใหญ่และหลากหลาย (แนวทางที่มีอิทธิพล)
- ระยะกลาง: ชุดข้อมูลที่คัดสรรในโดเมนเฉพาะ
- ระยะปลาย: การให้ข้อมูลป้อนกลับจากมนุษย์ การประเมิน และการปรับแต่ง (แนวทางตรง)
- ผลลัพธ์: การเพิ่มขึ้นอย่างค่อยเป็นค่อยไปของการบูรณาการความรู้ของมนุษย์ตลอดวงจรการพัฒนา
ผลกระทบในทางปฏิบัติสำหรับทีมขนาดเล็ก
การถกเถียงมีความเกี่ยวข้องเป็นพิเศษสำหรับทีมนอกบริษัทเทคโนโลยีใหญ่ ในขณะที่ Google, OpenAI และองค์กรที่คล้ายกันสามารถจ่ายได้ที่จะใช้ทรัพยากรการประมวลผลมหาศาลกับปัญหา ทีมขนาดเล็กมักพบว่าการรวมความรู้ในโดเมนกับทรัพยากรการประมวลผลที่เจียมเนื้อเจียมตัวกว่าให้ผลลัพธ์ที่ดีกว่า
ผู้ปฏิบัติงานหลายคนรายงานว่าโมเดลที่เรียบง่ายและเข้าใจได้มักจะให้ผลดีกว่าโครงข่ายประสาทเทียมที่ซับซ้อนเมื่อข้อมูลมีจำกัด เคล็ดลับคือการจับคู่ความซับซ้อนของโมเดลกับข้อมูลที่มีอยู่ - ใช้ความซับซ้อนเพียงพอที่จะจับรูปแบบโดยไม่ overfitting กับข้อมูลที่กระจัดกระจาย
การอภิปรายชี้ให้เห็นว่าแม้ว่า The Bitter Lesson อาจเป็นจริงที่ขอบล้ำหน้าของการวิจัย AI แต่ความเป็นจริงในทางปฏิบัติสำหรับการประยุกต์ใช้ส่วนใหญ่เกี่ยวข้องกับการสร้างสมดุลอย่างระมัดระวังระหว่างข้อมูลเชิงลึกของมนุษย์กับพลังการประมวลผล เมื่อสาขานี้เติบโตขึ้น ความสำเร็จขึ้นอยู่กับการรู้ว่าเมื่อไหร่จะใช้แนวทางแต่ละแบบมากกว่าการเลือกข้างในการต่อสู้เทียมระหว่างความรู้ของมนุษย์และการเรียนรู้ของเครื่อง