แนวทางใหม่ในการออกแบบโครงข่ายประสาทเทียมที่เรียกว่า Tversky Neural Networks ได้ก่อให้เกิดการถกเถียงในชุมชนการเรียนรู้ของเครื่อง วิธีการนี้แทนที่การวัดความคล้ายคลึงแบบดั้งเดิมด้วยฟังก์ชันความคล้ายคลึงแบบ Tversky ที่ได้แรงบันดาลใจจากจิตวิทยา โดยสัญญาว่าจะให้ความสามารถในการตีความได้ดีขึ้นและการปรับปรุงประสิทธิภาพในงานต่างๆ
องค์ประกอบหลัก:
- Tversky Similarity Layer: คำนวณความคล้ายคลึงระหว่างวัตถุโดยใช้ฟังก์ชันอินเตอร์เซกชัน
- Tversky Projection Layer: ฉายเวกเตอร์อินพุตลงบนเวกเตอร์ต้นแบบที่เรียนรู้
- พารามิเตอร์ที่เรียนรู้ได้: เวกเตอร์ต้นแบบ เวกเตอร์ฟีเจอร์ และน้ำหนัก α, β
ชุมชนตั้งคำถามเกี่ยวกับการติดป้ายกระบวนทัศน์ใหม่
ชุมชนการวิจัยได้แสดงความกังวลเกี่ยวกับว่างานนี้เป็นตัวแทนของความก้าวหน้าที่สำคัญจริงหรือไม่ นักวิจารณ์โต้แย้งว่าการแทนที่เมตริกความคล้ายคลึงหนึ่งด้วยอีกอันหนึ่งไม่ได้ให้เหตุผลในการสร้างหมวดหมู่ใหม่ของโครงข่ายประสาทเทียมทั้งหมด แนวทางนี้เป็นการเปลี่ยนจาก cosine similarity หรือ dot products เป็นฟังก์ชัน Tversky similarity ซึ่งบางคนมองว่าเป็นการปรับปรุงชุดเครื่องมือแบบค่อยเป็นค่อยไปมากกว่าการเปลี่ยนแปลงกระบวนทัศน์
การเปรียบเทียบกับ Kolmogorov-Arnold Networks ( KANs ) เน้นย้ำความตึงเครียดนี้ ในขณะที่ KANs เปลี่ยนแปลงแง่มุมพื้นฐานของการทำงานของโครงข่ายประสาทเทียมโดยการปรับเปลี่ยนทั้งน้ำหนักและการกระตุ้น โครงข่าย Tversky เปลี่ยนแปลงการคำนวณความคล้ายคลึงระหว่างการแสดงคุณลักษณะเป็นหลัก
สูตร Tversky Similarity: Sim(A, B) = |A ∩ B| / (|A ∩ B| + α|A − B| + β|B − A|) โดยที่ α, β เป็นพารามิเตอร์ที่เรียนรู้ได้ซึ่งควบคุมน้ำหนักของคุณลักษณะเฉพาะ
การอ้างสิทธิ์เรื่องความสามารถตีความได้ถูกวิจารณ์อย่างหนัก
การยืนยันเรื่องความสามารถในการตีความได้ของเอกสารได้เผชิญกับการต่อต้านที่รุนแรงที่สุดจากนักวิจัย แม้ว่าผู้เขียนจะแสดงให้เห็นว่าชั้น Tversky สามารถเรียนรู้รูปแบบที่จดจำได้มากขึ้นในงานง่ายๆ เช่น การจดจำตัวเลขที่เขียนด้วยลายมือ ผู้เชี่ยวชาญตั้งคำถามว่าสิ่งนี้จะแปลเป็นความซับซ้อนในโลกแห่งความเป็นจริงหรือไม่
โครงข่ายประสาทเทียมจำเป็นต้องมีพารามิเตอร์เกินจำเป็นเพื่อหาโซลูชันที่ดี หมายความว่ามีพื้นผิวของโซลูชัน... โซลูชันพลังงานต่ำไม่กระจัดกระจาย และดังนั้นจึงไม่สามารถตีความได้
ความท้าทายหลักยังคงไม่เปลี่ยนแปลง: โครงข่ายประสาทเทียมสมัยใหม่มีพารามิเตอร์หลายล้านหรือหลายพันล้านตัวที่มีการเชื่อมต่อที่ซับซ้อน แม้ว่าฟังก์ชันความคล้ายคลึงแต่ละตัวจะอธิบายได้ชัดเจนขึ้น ความซับซ้อนของระบบโดยรวมก็ไม่ได้ลดลงอย่างมีนัยสำคัญ การปรับปรุงการแสดงภาพที่แสดงบนตัวเลข MNIST อาจไม่สามารถขยายไปยังแอปพลิเคชันที่ซับซ้อนมากขึ้น
ผลการปรับปรุงประสิทธิภาพแสดงผลลัพธ์ที่หลากหลาย
การปรับปรุงที่รายงานแตกต่างกันอย่างมากในโดเมนต่างๆ งานการจำแนกภาพแสดงการเพิ่มขึ้นเพียงเล็กน้อย โดยความแม่นยำของ CIFAR-10 ปรับปรุงจาก 94.0% เป็น 94.9% และ MiniPlaces เพิ่มขึ้นจาก 57.4% เป็น 61.2% ผลลัพธ์การสร้างแบบจำลองภาษาดูมีแนวโน้มดีกว่า โดยมีการลดลงของ perplexity 7.7% ในขณะที่ใช้พารามิเตอร์น้อยกว่า 34.4% บน Penn Treebank
อย่างไรก็ตาม นักวิจัยบางคนสังเกตว่าตัวเลือกเกณฑ์มาตรฐานดูล้าสมัยเมื่อพิจารณาจากความสามารถของโมเดลพื้นฐานปัจจุบัน การทดสอบการฉายภาพ Tversky บนโมเดลการฝังสมัยใหม่เช่น DINOv3 จะให้การเปรียบเทียบที่เกี่ยวข้องมากขึ้นสำหรับแอปพลิเคชันในปัจจุบัน
การปรับปรุงประสิทธิภาพ:
- CIFAR-10 : ความแม่นยำ 94.0% → 94.9% (+0.9%)
- MiniPlaces : ความแม่นยำ 57.4% → 61.2% (+3.8%)
- Penn Treebank : ลดค่า perplexity 7.7% โดยใช้พารามิเตอร์น้อยลง 34.4%
ความกังวลเรื่องการตั้งชื่อและการตลาด
ชุมชนการวิจัยยังได้วิจารณ์กลยุทธ์การตั้งชื่อ โดยแนะนำว่า Tversky Neural Networks ฟังดูเหมือนความพยายามที่จะสร้างความฮือฮารอบการปรับปรุงแบบค่อยเป็นค่อยไป บางคนชี้ให้เห็นว่าชื่ออัลกอริทึมที่ประสบความสำเร็จมักใช้ตัวย่อสามตัวอักษรมากกว่าการแนบชื่อเฉพาะเข้ากับแนวคิดที่มีอยู่
วิธีการนี้แสดงให้เห็นแนวโน้มที่ดีสำหรับแอปพลิเคชันเฉพาะ โดยเฉพาะในกรณีที่ความน่าเชื่อถือทางจิตวิทยามีความสำคัญมากกว่าประสิทธิภาพดิบ อย่างไรก็ตาม ชุมชนยังคงแบ่งแยกเกี่ยวกับว่าการมีส่วนร่วมเหล่านี้สมควรได้รับการอ้างสิทธิ์ว่าตีความได้โดยการออกแบบหรือเป็นตัวแทนของความก้าวหน้าที่สำคัญตามที่แนะนำโดยการตั้งชื่อหรือไม่
Tversky similarity: แบบจำลองทางจิตวิทยาที่วัดความคล้ายคลึงระหว่างวัตถุโดยอิงจากคุณลักษณะร่วมและที่แตกต่าง โดยคำนึงถึงการตัดสินความคล้ายคลึงแบบไม่สมมาตรที่มนุษย์ทำตามธรรมชาติ
อ้างอิง: Tversky Neural Networks