บทความเชิงการศึกษาล่าสุดที่อธิบายเกี่ยวกับ derivatives, gradients, Jacobians และ Hessians ได้จุดประกายการอภิปรายที่น่าสนใจเกี่ยวกับวิธีที่เราเข้าใจและแสดงภาพแนวคิดทางคณิตศาสตร์ใน machine learning การตอบสนองจากชุมชนเผยให้เห็นข้อมูลเชิงลึกเกี่ยวกับทั้งการสอนและการประยุกต์ใช้เครื่องมือพื้นฐานเหล่านี้ในทางปฏิบัติ
การเรียนรู้ด้วยภาพขึ้นเป็นจุดสำคัญ
การอภิปรายหันไปสู่การแสดงภาพในฐานะเครื่องมือการเรียนรู้ที่ทรงพลังอย่างรวดเร็ว สมาชิกชุมชนหลายคนได้แบ่งปันประสบการณ์ของพวกเขาในการสร้างการแสดงภาพของแนวคิดทางคณิตศาสตร์ นักพัฒนาคนหนึ่งได้สร้างเครื่องมือเฉพาะสำหรับการแสดงภาพ gradients ในรูปแบบแผนที่ลูกศร ซึ่งช่วยให้นักเรียนเข้าใจอัลกอริทึมการหาค่าเหมาะสมได้อย่างง่ายดาย แนวทางนี้ถือว่าการดำเนินการทางคณิตศาสตร์ไม่ใช่สูตรที่เป็นนามธรรม แต่เป็นการแปลงเชิงภาพที่สามารถมองเห็นและเข้าใจได้
การเน้นการเรียนรู้ด้วยภาพขยายไปไกลกว่าการแสดงภาพง่าย ๆ สมาชิกชุมชนอธิบายการคิดถึง gradients เป็นชุดของลูกศรที่ชี้ไปในทิศทางที่เพิ่มขึ้นสูงสุด ในขณะที่ Hessians แสดงถึงรูปร่างของฟังก์ชันที่จุดเฉพาะ - เหมือนกับการมองเห็นพาราโบลาหรือรูปอานม้าเมื่อคุณซูมเข้าไปที่ตำแหน่งใด ๆ บนพื้นผิวทางคณิตศาสตร์
การถกเถียงเรื่องมิติ Tensor
การอภิปรายทางเทคนิคที่ร้อนแรงเกิดขึ้นเกี่ยวกับธรรมชาติที่แท้จริงของวัตถุทางคณิตศาสตร์ที่ใช้ใน machine learning สมาชิกชุมชนบางคนโต้แย้งว่าการเรียก Hessian ว่าเป็น matrix นั้นทำให้เข้าใจผิด เนื่องจากมันใช้ได้เฉพาะกับฟังก์ชันที่มีผลลัพธ์เดียว พวกเขาชี้ให้เห็นว่าสำหรับฟังก์ชันที่ให้ผลลัพธ์หลายค่า วัตถุทางคณิตศาสตร์ที่เหมาะสมควรเป็น tensor สามมิติ ไม่ใช่ matrix
การถกเถียงนี้เน้นความตึงเครียดที่กว้างขึ้นในวิธีที่เราสอนคณิตศาสตร์ขั้นสูง ในขณะที่นักคณิตศาสตร์ทำงานกับ tensors หลายมิติได้อย่างสะดวก การศึกษาด้านวิศวกรรมมักหลีกเลี่ยงแนวคิดเหล่านี้ ทำให้เกิดความเข้าใจที่ไม่สมบูรณ์เกี่ยวกับโครงสร้างทางคณิตศาสตร์พื้นฐาน
วัตถุทางคณิตศาสตร์จำแนกตามมิติ:
- อนุพันธ์ (1D): ตัวเลขเดี่ยวที่แสดงอัตราการเปลี่ยนแปลง
- เกรเดียนต์ (อินพุตหลายตัว เอาต์พุตตัวเดียว): เวกเตอร์ของอนุพันธ์ย่อย
- เมทริกซ์ Jacobian (อินพุตหลายตัว เอาต์พุตหลายตัว): อาร์เรย์ 2 มิติที่มีรูปร่าง (m, n)
- เมทริกซ์ Hessian (อินพุตหลายตัว เอาต์พุตตัวเดียว): อาร์เรย์ 2 มิติของอนุพันธ์อันดับสอง
- เทนเซอร์อันดับสูง: อาร์เรย์ 3 มิติขึ้นไปสำหรับฟังก์ชันหลายตัวแปรที่ซับซ้อน
การมองเห็นของมนุษย์เทียบกับการหาค่าเหมาะสมของคอมพิวเตอร์
การอภิปรายที่น่าสนใจที่สุดอาจเป็นการอภิปรายที่มุ่งเน้นไปที่คำถามที่ดูเรียบง่ายแต่หลอกลวง: เหตุใดมนุษย์จึงสามารถระบุจุดต่ำสุดบนพื้นผิวที่มองเห็นได้ทันที ในขณะที่คอมพิวเตอร์ต้องใช้อัลกอริทึมที่ซับซ้อนเพื่อหาค่าต่ำสุดเดียวกัน สิ่งนี้จุดประกายการสำรวจอย่างลึกซึ้งเกี่ยวกับความแตกต่างระหว่างการรับรู้ของมนุษย์และวิธีการคำนวณ
คุณกำลังคิดถึงสถานการณ์ที่คุณสามารถมองเห็นวัตถุทั้งหมดในครั้งเดียว หากคุณต้องจัดการกับวัตถุที่ใหญ่เกินกว่าจะมองเห็นทั้งหมด คุณจะต้องเริ่มตัดสินใจเกี่ยวกับวิธีการสำรวจมัน
ชุมชนอธิบายว่าการมองเห็นของมนุษย์ทำงานได้เพราะเราสามารถสังเกตจุดทั้งหมดบนพื้นผิว 2D หรือ 3D ได้พร้อมกัน อย่างไรก็ตาม ใน machine learning ปัญหาการหาค่าเหมาะสมมักเกี่ยวข้องกับหลายล้านหรือหลายพันล้านมิติ neural network ที่มีพารามิเตอร์ 7 พันล้านตัวสร้างภูมิประเทศที่กว้างใหญ่มากจนแม้แต่การสุ่มตัวอย่างเพียง 10 จุดต่อมิติก็จะต้องใช้การคำนวณมากกว่าจำนวนอะตอมในจักรวาลที่สังเกตได้
การเปรียบเทียบความซับซ้อนของการหาค่าเหมาะสม:
- การหาค่าเหมาะสมของพื้นผิว 2 มิติ: ประมาณ 10,000 การคำนวณ (กริด 100x100)
- โครงข่ายประสาทเทียม (พารามิเตอร์ 7 พันล้านตัว): 10^(7×10^9) การประเมินผลสำหรับการค้นหาแบบกริด
- การมองเห็นของมนุษย์: การประมวลผลแบบขนานของจุดบนพื้นผิวหลายพันจุดพร้อมกัน
- อัลกอริทึมคอมพิวเตอร์: ต้องใช้การหาค่าเหมาะสมแบบลำดับขั้นตามการไล่ระดับสำหรับมิติสูง
การประยุกต์ใช้ในทางปฏิบัติและเครื่องมือ
การอภิปรายยังกล่าวถึงเครื่องมือล้ำสมัยสำหรับ automatic differentiation รวมถึงความก้าวหน้าล่าสุดในภาษาโปรแกรม Julia และระบบที่ใช้ LLVM เช่น Enzyme เครื่องมือเหล่านี้สามารถคำนวณ derivatives, gradients และวัตถุทางคณิตศาสตร์อันดับสูงได้โดยอัตโนมัติด้วยประสิทธิภาพสูง ทำให้อัลกอริทึม machine learning ที่ซับซ้อนสามารถนำไปใช้ได้จริงมากขึ้น
สมาชิกชุมชนแบ่งปันทรัพยากรตั้งแต่ช่อง YouTube ที่สอน tensor algebra ไปจนถึงไลบรารีซอฟต์แวร์เฉพาะที่เปรียบเทียบแนวทาง automatic differentiation ที่แตกต่างกัน สิ่งนี้แสดงให้เห็นว่าสาขานี้ยังคงพัฒนาต่อไป โดยมีเครื่องมือใหม่ ๆ ที่ทำให้แนวคิดทางคณิตศาสตร์ขั้นสูงเข้าถึงได้มากขึ้นสำหรับผู้ปฏิบัติงาน
มองไปข้างหน้า
การสนทนาเผยให้เห็นว่าการทำความเข้าใจแนวคิดทางคณิตศาสตร์เหล่านี้ต้องใช้แนวทางหลายแบบ - สัญชาตญาณเชิงภาพ การฝึกอบรมทางคณิตศาสตร์อย่างเป็นทางการ และประสบการณ์การเขียนโปรแกรมในทางปฏิบัติ เมื่อ machine learning แพร่หลายมากขึ้น การเน้นของชุมชนเกี่ยวกับคำอธิบายที่ชัดเจนและเครื่องมือภาพจึงมีความสำคัญมากขึ้นสำหรับการนำเทคนิคที่ทรงพลังเหล่านี้ไปสู่ผู้ชมที่กว้างขึ้น
การถกเถียงยังแสดงให้เห็นว่าแม้แต่แนวคิดพื้นฐานยังคงพัฒนาต่อไปในวิธีการสอนและความเข้าใจ โดยการแสดงภาพและคำอธิบายที่เข้าใจง่ายมีบทบาทสำคัญในการทำให้คณิตศาสตร์ขั้นสูงเข้าถึงได้สำหรับผู้ปฏิบัติงาน machine learning รุ่นต่อไป
อ้างอิง: Derivatives, Gradients, Jacobians and Hessians – Oh My!