งานวิจัยใหม่เผยเหตุผลที่การฝึก Deep Learning ทำงานได้แม้จะมีความไม่เสถียรทางคณิตศาสตร์

ทีมชุมชน BigGo

งานวิจัยใหม่เผยเหตุผลที่การฝึก Deep Learning ทำงานได้แม้จะมีความไม่เสถียรทางคณิตศาสตร์

งานวิจัยที่ก้าวล้ำซึ่งตีพิมพ์ใน ICLR 2023 ได้ให้ความกระจ่างเกี่ยวกับหนึ่งในปริศนาที่น่าพิศวงที่สุดของ deep learning นั่นคือ เหตุใดโครงข่ายประสาทเทียมจึงฝึกได้สำเร็จแม้ว่าจะทำงานในพื้นที่ที่ไม่เสถียรทางคณิตศาสตร์ การศึกษานี้ได้นำเสนอแนวคิดที่เรียกว่า central flows ซึ่งอธิบายว่า gradient descent อัลกอริทึมพื้นฐานที่อยู่เบื้องหลังการฝึก AI ทำงานอย่างไรในทางปฏิบัติ

ความจริงที่น่าประหลาดใจของการฝึกโครงข่ายประสาทเทียม

ทฤษฎีการหาค่าเหมาะสมแบบดั้งเดิมแนะนำว่า gradient descent ควรใช้ขั้นตอนเล็กๆ และระมัดระวังเพื่อหลีกเลี่ยงความไม่เสถียร อย่างไรก็ตาม งานวิจัยนี้เผยให้เห็นว่า deep learning ที่ประสบความสำเร็จจงใจทำงานในสิ่งที่นักวิทยาศาสตร์เรียกว่า edge of stability แทนที่จะเดินตามเส้นทางที่เรียบเนียนตามที่ทฤษฎีทางคณิตศาสตร์ทำนาย โครงข่ายประสาทเทียมกลับแกว่งไปมาอย่างรุนแรงระหว่างการฝึก โดยกระโดดในลักษณะที่ดูเหมือนจะใหญ่เกินไปและวุ่นวายเกินกว่าจะทำงานได้อย่างมีประสิทธิภาพ

ชุมชนนักวิจัยตื่นเต้นเป็นพิเศษกับการค้นพบนี้เพราะมันท้าทายสมมติฐานที่ยึดถือมานานเกี่ยวกับการหาค่าเหมาะสม ดังที่นักวิจัยคนหนึ่งกล่าวไว้ว่า ทฤษฎีการหาค่าเหมาะสมแบบคลาสสิกเกี่ยวกับการอยู่ในพื้นที่ที่เสถียรนั้นเป็นสิ่งที่ deep learning ไม่ทำ โมเดลเรียนรู้โดยการกลายเป็นไม่เสถียร แกว่งไปมา และใช้พลังงานนั้นในการแก้ไขตัวเอง

ผลการวิจัยที่สำคัญ:

การเรียนรู้เชิงลึกทำงานที่ "ขอบของความเสถียร" มากกว่าในพื้นที่ที่เสถียร
การฝึกฝนเกี่ยวข้องกับพฤติกรรมการแกว่งที่ดูเหมือนจะวุ่นวายแต่เป็นไปตาม "กระแสกลาง" ที่อยู่เบื้องหลัง
กระแสกลางผสมผสานการลดลงของ gradient กับการลดความคมชัด
ความไม่เสถียรที่ปรากฏนั้นจริงๆ แล้วเป็นสิ่งจำเป็นสำหรับการเรียนรู้ที่มีประสิทธิภาพ
ทฤษฎีการปรับให้เหมาะสมแบบดั้งเดิมไม่สามารถอธิบายความสำเร็จของการเรียนรู้เชิงลึกได้อย่างครบถ้วน


ทำความเข้าใจพลวัตของ gradient descent ในการฝึกอบรม neural network

ทำความเข้าใจ Central Flows

นักวิจัยได้พัฒนากรอบทางคณิตศาสตร์ที่เรียกว่า central flows เพื่ออธิบายพฤติกรรมที่ดูเหมือนจะวุ่นวายนี้ ลองนึกภาพเหมือนแม่น้ำที่ไหลผ่านหุบเขาที่ชัน ในขณะที่ gradient descent ดูเหมือนจะกระโดดไปมาอย่างไม่แน่นอนข้ามผนังหุบเขา แต่จริงๆ แล้วมีกระแสน้ำที่เรียบเนียนไหลลงตรงกลางซึ่งแสดงถึงทิศทางการเรียนรู้ที่แท้จริง

central flow นี้ไม่ได้เพียงแค่เดินตามเส้นทางลาดเอียงที่เห็นได้ชัด แต่มันเคลื่อนที่ในทิศทางที่รวม gradient (ความชัน) เข้ากับสิ่งที่เรียกว่า sharpness reduction ซึ่งหาเส้นทางที่นำไปสู่โซลูชันที่เรียบและเสถียรมากขึ้น สมการทางคณิตศาสตร์แสดงให้เห็นว่าอัลกอริทึมลบส่วนประกอบที่จะนำไปสู่ความไม่เสถียรออกไป สร้างกระบวนการเรียนรู้ที่มีการควบคุมมากขึ้นใต้ความวุ่นวายที่ปรากฏ

หมายเหตุ: Gradient หมายถึงทิศทางของการเพิ่มขึ้นอย่างรวดเร็วที่สุดใน loss function ส่วน Sharpness วัดความเร็วในการเปลี่ยนแปลงของ loss ในทิศทางต่างๆ

สูตรทางคณิตศาสตร์ของ Central Flow:

-1/η *dw/dt = ∇L - ∇S* ⟨∇L, ∇S⟩/‖∇S‖²

โดยที่:

η = อัตราการเรียนรู้
∇L = เกรเดียนต์ของฟังก์ชันการสูญเสีย
∇S = เกรเดียนต์ของการวัดความคมชัด
S = ผลรวมของค่าลักษณะเฉพาะของ Hessian ที่มีค่ามากกว่า 2/η


ภาพประกอบของการไหลส่วนกลางที่แสดงถึงกระบวนการ gradient descent ในการเพิ่มประสิทธิภาพ

ผลกระทบในทางปฏิบัติต่อการพัฒนา AI

งานวิจัยนี้ได้จุดประกายการอภิปรายเกี่ยวกับความเป็นไปได้ที่ข้อมูลเชิงลึกเหล่านี้จะนำไปสู่วิธีการฝึกที่ดีกว่า แม้ว่าผู้เขียนจะเน้นย้ำว่า central flows เป็นเครื่องมือทางทฤษฎีสำหรับการทำความเข้าใจมากกว่าเป็นวิธีการหาค่าเหมาะสมในทางปฏิบัติ แต่ชุมชนนักวิจัยเห็นศักยภาพในการประยุกต์ใช้ นักวิจัยบางคนกำลังสำรวจว่าการเก็บค่าเฉลี่ยของการทำซ้ำล่าสุดแทนการใช้ momentum แบบดั้งเดิมจะสามารถลดความล่าช้าและปรับปรุงการบรรจบกันได้หรือไม่

การค้นพบนี้ยังอธิบายว่าเหตุใด optimizer บางตัวเช่น RMSProp จึงทำงานได้ดีในทางปฏิบัติ โดยให้การสนับสนุนทางคณิตศาสตร์สำหรับเทคนิคที่เดิมเข้าใจได้เพียงผ่านการลองผิดลองถูก นี่แสดงถึงก้าวสำคัญไปข้างหน้าจากคำอธิบายแบบผิวเผินที่ครอบงำสาขานี้มา


การเปรียบเทียบพฤติกรรม gradient descent กับ central และ gradient flows

ผลกระทบที่กว้างขึ้นต่อทฤษฎี Machine Learning

งานวิจัยนี้เปลี่ยนแปลงวิธีคิดเกี่ยวกับการฝึกโครงข่ายประสาทเทียมโดยพื้นฐาน แทนที่จะมองการแกว่งไปมาและความไม่เสถียรที่ปรากฏเป็นปัญหาที่ต้องแก้ไข ตอนนี้เราเข้าใจแล้วว่าสิ่งเหล่านี้เป็นคุณลักษณะสำคัญของวิธีการทำงานของ deep learning ความวุ่นวายไม่ใช่ข้อบกพร่อง แต่เป็นคุณสมบัติที่ช่วยให้ระบบสำรวจพื้นที่โซลูชันได้อย่างมีประสิทธิภาพมากกว่าวิธีที่เสถียรล้วนๆ

งานนี้ยังสร้างความเปรียบเทียบที่น่าสนใจกับเทคนิคการหาค่าเหมาะสมอื่นๆ เช่น simulated annealing ที่ความสุ่มที่มีการควบคุมช่วยหลีกหนีจาก local minima สิ่งนี้บ่งบอกว่าหลักการที่ค้นพบในที่นี้อาจใช้ได้กว้างขึ้นกับอัลกอริทึม machine learning และปัญหาการหาค่าเหมาะสมประเภทต่างๆ

อ้างอิง: Part I. how does gradient descent work?

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌