งานวิจัยที่ก้าวล้ำซึ่งตีพิมพ์ใน ICLR 2023 ได้ให้ความกระจ่างเกี่ยวกับหนึ่งในปริศนาที่น่าพิศวงที่สุดของ deep learning นั่นคือ เหตุใดโครงข่ายประสาทเทียมจึงฝึกได้สำเร็จแม้ว่าจะทำงานในพื้นที่ที่ไม่เสถียรทางคณิตศาสตร์ การศึกษานี้ได้นำเสนอแนวคิดที่เรียกว่า central flows ซึ่งอธิบายว่า gradient descent อัลกอริทึมพื้นฐานที่อยู่เบื้องหลังการฝึก AI ทำงานอย่างไรในทางปฏิบัติ
ความจริงที่น่าประหลาดใจของการฝึกโครงข่ายประสาทเทียม
ทฤษฎีการหาค่าเหมาะสมแบบดั้งเดิมแนะนำว่า gradient descent ควรใช้ขั้นตอนเล็กๆ และระมัดระวังเพื่อหลีกเลี่ยงความไม่เสถียร อย่างไรก็ตาม งานวิจัยนี้เผยให้เห็นว่า deep learning ที่ประสบความสำเร็จจงใจทำงานในสิ่งที่นักวิทยาศาสตร์เรียกว่า edge of stability แทนที่จะเดินตามเส้นทางที่เรียบเนียนตามที่ทฤษฎีทางคณิตศาสตร์ทำนาย โครงข่ายประสาทเทียมกลับแกว่งไปมาอย่างรุนแรงระหว่างการฝึก โดยกระโดดในลักษณะที่ดูเหมือนจะใหญ่เกินไปและวุ่นวายเกินกว่าจะทำงานได้อย่างมีประสิทธิภาพ
ชุมชนนักวิจัยตื่นเต้นเป็นพิเศษกับการค้นพบนี้เพราะมันท้าทายสมมติฐานที่ยึดถือมานานเกี่ยวกับการหาค่าเหมาะสม ดังที่นักวิจัยคนหนึ่งกล่าวไว้ว่า ทฤษฎีการหาค่าเหมาะสมแบบคลาสสิกเกี่ยวกับการอยู่ในพื้นที่ที่เสถียรนั้นเป็นสิ่งที่ deep learning ไม่ทำ โมเดลเรียนรู้โดยการกลายเป็นไม่เสถียร แกว่งไปมา และใช้พลังงานนั้นในการแก้ไขตัวเอง
ผลการวิจัยที่สำคัญ:
- การเรียนรู้เชิงลึกทำงานที่ "ขอบของความเสถียร" มากกว่าในพื้นที่ที่เสถียร
- การฝึกฝนเกี่ยวข้องกับพฤติกรรมการแกว่งที่ดูเหมือนจะวุ่นวายแต่เป็นไปตาม "กระแสกลาง" ที่อยู่เบื้องหลัง
- กระแสกลางผสมผสานการลดลงของ gradient กับการลดความคมชัด
- ความไม่เสถียรที่ปรากฏนั้นจริงๆ แล้วเป็นสิ่งจำเป็นสำหรับการเรียนรู้ที่มีประสิทธิภาพ
- ทฤษฎีการปรับให้เหมาะสมแบบดั้งเดิมไม่สามารถอธิบายความสำเร็จของการเรียนรู้เชิงลึกได้อย่างครบถ้วน
![]() |
---|
ทำความเข้าใจพลวัตของ gradient descent ในการฝึกอบรม neural network |
ทำความเข้าใจ Central Flows
นักวิจัยได้พัฒนากรอบทางคณิตศาสตร์ที่เรียกว่า central flows เพื่ออธิบายพฤติกรรมที่ดูเหมือนจะวุ่นวายนี้ ลองนึกภาพเหมือนแม่น้ำที่ไหลผ่านหุบเขาที่ชัน ในขณะที่ gradient descent ดูเหมือนจะกระโดดไปมาอย่างไม่แน่นอนข้ามผนังหุบเขา แต่จริงๆ แล้วมีกระแสน้ำที่เรียบเนียนไหลลงตรงกลางซึ่งแสดงถึงทิศทางการเรียนรู้ที่แท้จริง
central flow นี้ไม่ได้เพียงแค่เดินตามเส้นทางลาดเอียงที่เห็นได้ชัด แต่มันเคลื่อนที่ในทิศทางที่รวม gradient (ความชัน) เข้ากับสิ่งที่เรียกว่า sharpness reduction ซึ่งหาเส้นทางที่นำไปสู่โซลูชันที่เรียบและเสถียรมากขึ้น สมการทางคณิตศาสตร์แสดงให้เห็นว่าอัลกอริทึมลบส่วนประกอบที่จะนำไปสู่ความไม่เสถียรออกไป สร้างกระบวนการเรียนรู้ที่มีการควบคุมมากขึ้นใต้ความวุ่นวายที่ปรากฏ
หมายเหตุ: Gradient หมายถึงทิศทางของการเพิ่มขึ้นอย่างรวดเร็วที่สุดใน loss function ส่วน Sharpness วัดความเร็วในการเปลี่ยนแปลงของ loss ในทิศทางต่างๆ
สูตรทางคณิตศาสตร์ของ Central Flow:
-1/η *dw/dt = ∇L - ∇S* ⟨∇L, ∇S⟩/‖∇S‖²
โดยที่:
- η = อัตราการเรียนรู้
- ∇L = เกรเดียนต์ของฟังก์ชันการสูญเสีย
- ∇S = เกรเดียนต์ของการวัดความคมชัด
- S = ผลรวมของค่าลักษณะเฉพาะของ Hessian ที่มีค่ามากกว่า 2/η
![]() |
---|
ภาพประกอบของการไหลส่วนกลางที่แสดงถึงกระบวนการ gradient descent ในการเพิ่มประสิทธิภาพ |
ผลกระทบในทางปฏิบัติต่อการพัฒนา AI
งานวิจัยนี้ได้จุดประกายการอภิปรายเกี่ยวกับความเป็นไปได้ที่ข้อมูลเชิงลึกเหล่านี้จะนำไปสู่วิธีการฝึกที่ดีกว่า แม้ว่าผู้เขียนจะเน้นย้ำว่า central flows เป็นเครื่องมือทางทฤษฎีสำหรับการทำความเข้าใจมากกว่าเป็นวิธีการหาค่าเหมาะสมในทางปฏิบัติ แต่ชุมชนนักวิจัยเห็นศักยภาพในการประยุกต์ใช้ นักวิจัยบางคนกำลังสำรวจว่าการเก็บค่าเฉลี่ยของการทำซ้ำล่าสุดแทนการใช้ momentum แบบดั้งเดิมจะสามารถลดความล่าช้าและปรับปรุงการบรรจบกันได้หรือไม่
การค้นพบนี้ยังอธิบายว่าเหตุใด optimizer บางตัวเช่น RMSProp จึงทำงานได้ดีในทางปฏิบัติ โดยให้การสนับสนุนทางคณิตศาสตร์สำหรับเทคนิคที่เดิมเข้าใจได้เพียงผ่านการลองผิดลองถูก นี่แสดงถึงก้าวสำคัญไปข้างหน้าจากคำอธิบายแบบผิวเผินที่ครอบงำสาขานี้มา
![]() |
---|
การเปรียบเทียบพฤติกรรม gradient descent กับ central และ gradient flows |
ผลกระทบที่กว้างขึ้นต่อทฤษฎี Machine Learning
งานวิจัยนี้เปลี่ยนแปลงวิธีคิดเกี่ยวกับการฝึกโครงข่ายประสาทเทียมโดยพื้นฐาน แทนที่จะมองการแกว่งไปมาและความไม่เสถียรที่ปรากฏเป็นปัญหาที่ต้องแก้ไข ตอนนี้เราเข้าใจแล้วว่าสิ่งเหล่านี้เป็นคุณลักษณะสำคัญของวิธีการทำงานของ deep learning ความวุ่นวายไม่ใช่ข้อบกพร่อง แต่เป็นคุณสมบัติที่ช่วยให้ระบบสำรวจพื้นที่โซลูชันได้อย่างมีประสิทธิภาพมากกว่าวิธีที่เสถียรล้วนๆ
งานนี้ยังสร้างความเปรียบเทียบที่น่าสนใจกับเทคนิคการหาค่าเหมาะสมอื่นๆ เช่น simulated annealing ที่ความสุ่มที่มีการควบคุมช่วยหลีกหนีจาก local minima สิ่งนี้บ่งบอกว่าหลักการที่ค้นพบในที่นี้อาจใช้ได้กว้างขึ้นกับอัลกอริทึม machine learning และปัญหาการหาค่าเหมาะสมประเภทต่างๆ