SWE-Bench Pro ของ Scale AI ถูกวิพากษ์วิจารณ์เรื่องการตั้งชื่อและความกังวลเรื่องการปนเปื้อนข้อมูล

ทีมชุมชน BigGo
SWE-Bench Pro ของ Scale AI ถูกวิพากษ์วิจารณ์เรื่องการตั้งชื่อและความกังวลเรื่องการปนเปื้อนข้อมูล

Scale AI ได้เปิดตัว SWE-Bench Pro ซึ่งเป็นมาตรฐานการประเมินใหม่ที่ออกแบบมาเพื่อประเมินโมเดลภาษาขนาดใหญ่และ AI agents ในงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน มาตรฐานนี้ท้าทายระบบ AI ให้สร้างแพตช์ที่แก้ไขปัญหาการเขียนโค้ดในโลกจริงทั่วทั้งฐานโค้ด อย่างไรก็ตาม การเปิดตัวครั้งนี้ได้จุดประกายการถกเถียงอย่างมากในชุมชนนักพัฒนาเกี่ยวกับทั้งการเลือกชื่อและความท้าทายพื้นฐานในการออกแบบมาตรฐานการประเมิน AI

ความขัดแย้งเรื่องสิทธิ์ในการตั้งชื่อเกิดขึ้น

การวิพากษ์วิจารณ์ที่เกิดขึ้นทันทีมุ่งเป้าไปที่การตัดสินใจของ Scale AI ในการตั้งชื่อมาตรฐานการประเมินของพวกเขาว่า SWE-Bench Pro ซึ่งดูเหมือนจะสร้างขึ้นจากโครงการ SWE-Bench ที่มีอยู่แล้วโดยไม่มีการอนุญาตที่ชัดเจนจากผู้สร้างต้นฉบับ สมาชิกในชุมชนได้แสดงความกังวลว่าการเพิ่มคำว่า Pro เข้าไปในชื่อโครงการที่มีชื่อเสียงแล้วถือเป็นการกระทำที่ไม่เหมาะสมและอาจละเมิดผลงานของทีมต้นฉบับ ขณะเดียวกันก็บ่งบอกถึงความเหนือกว่า

SWE-Bench ต้นฉบับได้กลายเป็นมาตรฐานที่ได้รับการยอมรับในสาขาสำหรับการประเมินความสามารถในการเขียนโค้ดของ AI เวอร์ชันของ Scale AI ใช้แนวทางที่คล้ายกัน แต่แนะนำทั้งลีดเดอร์บอร์ดสาธารณะและส่วนตัว โดยเวอร์ชันเชิงพาณิชย์ส่วนตัวสัญญาว่าจะให้การป้องกันการปนเปื้อนข้อมูลที่ดีกว่า

การปนเปื้อนข้อมูลยังคงเป็นความท้าทายที่สำคัญ

ประเด็นการอภิปรายหลักหมุนรอบคำถามว่ามาตรการป้องกันสามารถป้องกันการปนเปื้อนข้อมูลการฝึกอบรม AI ได้จริงหรือไม่ Scale AI ได้พยายามปกป้องชุดทดสอบสาธารณะของพวกเขาโดยใช้ใบอนุญาต copyleft ที่เข้มงวด แต่ผู้เชี่ยวชาญในชุมชนยังคงสงสัยเกี่ยวกับประสิทธิผลของมัน ปัญหาพื้นฐานคือการฝึกอบรม AI โดยทั่วไปจะเพิกเฉยต่อข้อจำกัดด้านลิขสิทธิ์และใบอนุญาตโดยสิ้นเชิง

ผู้ที่อยู่ในอุตสาหกรรมซึ่งมีประสบการณ์โดยตรงคนหนึ่งกล่าวว่า บริษัทที่มีความรับผิดชอบจะพยายามหลีกเลี่ยงการฝึกอบรมบนโค้ดที่มีใบอนุญาตที่เข้มงวด แต่การบังคับใช้ยังคงเป็นไปไม่ได้เกือบจะตรวจสอบ ความท้าทายจะซับซ้อนยิ่งขึ้นเมื่อพิจารณาว่าการพัฒนา AI ไม่ได้ปฏิบัติตามแนวทางจริยธรรมเดียวกัน โดยเฉพาะอย่างยิ่งในประเทศและสภาพแวดล้อมการกำกับดูแลที่แตกต่างกัน

ชุดข้อมูลสาธารณะเป็นสิ่งที่เรายึดถือไว้กับมาตรฐานการประเมิน LLM ด้วยเหตุผลทางประวัติศาสตร์ แต่จำเป็นต้องก้าวต่อไปจากสิ่งนี้

ปัญหาการปนเปื้อนเน้นย้ำถึงปัญหาที่กว้างขึ้นในการสร้างมาตรฐานการประเมิน AI เมื่อชุดข้อมูลกลายเป็นสาธารณะแล้ว แม้แต่การสร้างรูปแบบสังเคราะห์ของตัวอย่างก็สามารถทำให้ระบบสามารถเล่นกลมาตรฐานการประเมินได้โดยไม่ต้อง overfitting กับข้อมูลต้นฉบับอย่างแท้จริง สิ่งนี้สร้างการแข่งขันแบบอาวุธที่โมเดลจะเชี่ยวชาญเฉพาะงานแคบๆ มากขึ้นแทนที่จะแสดงความสามารถทั่วไปที่แท้จริง

การดำเนินการทางเทคนิคและการเข้าถึง

SWE-Bench Pro ใช้ Docker containers สำหรับการประเมินที่สามารถทำซ้ำได้และต้องใช้ Modal สำหรับการขยายขนาดกระบวนการประเมิน Scale AI ให้ Docker images ที่สร้างไว้ล่วงหน้าสำหรับแต่ละอินสแตนซ์ทดสอบ ทำให้นักวิจัยสามารถรันการประเมินได้อย่างสม่ำเสมอง่ายขึ้น มาตรฐานการประเมินสามารถเข้าถึงได้ผ่าน HuggingFace datasets และรวมทั้งลีดเดอร์บอร์ดสาธารณะและเชิงพาณิชย์

กระบวนการประเมินเกี่ยวข้องกับการให้ระบบ AI มีฐานโค้ดและคำอธิบายปัญหา จากนั้นวัดความสามารถในการสร้างแพตช์ที่ใช้งานได้ สิ่งนี้แสดงถึงการก้าวขึ้นอย่างมีนัยสำคัญในความซับซ้อนจากมาตรฐานการประเมินการเขียนโค้ดที่ง่ายกว่าซึ่งมุ่งเน้นไปที่ฟังก์ชันหรืออัลกอริทึมแต่ละตัว

ข้อมูลการเข้าถึง SWE-Bench Pro

รูปแบบประสิทธิภาพเผยให้เห็นข้อจำกัดของโมเดล

ผลลัพธ์เบื้องต้นจาก SWE-Bench Pro เผยให้เห็นรูปแบบที่น่าสนใจในวิธีที่โมเดล AI ต่างๆ ล้มเหลว โมเดลที่ใหญ่กว่ามักจะมีปัญหากับความถูกต้องทางความหมายและอัลกอริทึมเมื่อทำการแก้ไขที่ซับซ้อนและครอบคลุมหลายไฟล์ ในขณะที่โมเดลที่เล็กกว่ามักจะล้มเหลวบ่อยกว่าในปัญหาพื้นฐานเกี่ยวกับไวยากรณ์ การจัดรูปแบบ และการจัดการบริบท

การค้นพบเหล่านี้สอดคล้องกับการสังเกตที่กว้างขึ้นเกี่ยวกับข้อจำกัดของ AI ปัจจุบันในวิศวกรรมซอฟต์แวร์ ในขณะที่ความถูกต้องทางไวยากรณ์ได้ปรับปรุงอย่างมาก ปัญหาที่ลึกซึ้งกว่าเกี่ยวกับความปลอดภัย สถาปัตยกรรม และการบำรุงรักษาโค้ดในระยะยาวยังคงเป็นความท้าทายสำหรับระบบ AI ที่จะจัดการได้อย่างมีประสิทธิภาพ

ความซับซ้อนของมาตรฐานการประเมินยังเน้นย้ำถึงข้อจำกัดทางทฤษฎีพื้นฐาน ลักษณะโดเมนเปิดของวิศวกรรมซอฟต์แวร์ในโลกจริงโดยพื้นฐานแล้วลดลงเหลือปัญหาที่แก้ไขไม่ได้ทางการคำนวณ คล้ายกับปัญหา halting problem ในวิทยาการคอมพิวเตอร์ แม้แต่วิศวกรมนุษย์ก็ยังดิ้นรนกับความท้าทายเหล่านี้ โดยเฉพาะอย่างยิ่งกรณีขอบที่หายากซึ่งมักจะกำหนดความน่าเชื่อถือของระบบ

รูปแบบประสิทธิภาพของโมเดล

  • โมเดลขนาดใหญ่ (เช่น Opus 4.1): มักจะล้มเหลวในด้านความถูกต้องเชิงความหมายหรือขั้นตอนวิธีในการแก้ไขไฟล์หลายไฟล์
  • โมเดลขนาดเล็ก (เช่น Qwen 3 32B): มักจะล้มเหลวในด้านไวยากรณ์ การจัดรูปแบบ การใช้เครื่องมือ หรือการจัดการบริบทบ่อยกว่า
  • แนวโน้มทั่วไป: ความถูกต้องทางไวยากรณ์ได้รับการปรับปรุงอย่างมาก แต่ปัญหาเชิงความหมายและสถาปัตยกรรมยังคงเป็นความท้าทาย

อนาคตของการประเมินโค้ด AI

ความขัดแย้งรอบ SWE-Bench Pro สะท้อนความตึงเครียดที่กว้างขึ้นในภูมิทัศน์การประเมิน AI เมื่อโมเดลมีความสามารถมากขึ้น ความจำเป็นในการมีชุดการประเมินส่วนตัวที่ได้รับการป้องกันก็แข็งแกร่งขึ้น อย่างไรก็ตาม สิ่งนี้สร้างความตึงเครียดกับหprinciples วิทยาศาสตร์เปิดที่ขับเคลื่อนความก้าวหน้าการวิจัย AI แบบดั้งเดิม

ผู้เชี่ยวชาญบางคนแนะนำให้ละทิ้งชุดข้อมูลสาธารณะโดยสิ้นเชิงสำหรับงานที่ซับซ้อน แทนที่จะให้คำอธิบายภาษาธรรมชาติที่ละเอียดซึ่งอนุญาตให้สร้างงานสังเคราะห์โดยไม่ต้องจับคู่มาตรฐานการประเมินที่สมบูรณ์แบบ แนวทางนี้สามารถรักษาความเข้มงวดในการประเมินในขณะที่ลดความเสี่ยงของ overfitting กับรูปแบบมาตรฐานการประเมินเฉพาะ

การถกเถียงยังสัมผัสกับความกังวลเชิงปฏิบัติเกี่ยวกับวิธีการประเมินที่มีอยู่ รวมถึงรายงานว่าโมเดลบางตัวได้พบวิธีเข้าถึงส่วนของ repositories ที่ควรจะถูกซ่อนไว้ระหว่างการประเมิน ความท้าทายในการดำเนินการเหล่านี้เพิ่มอีกชั้นหนึ่งของความซับซ้อนในการสร้างมาตรฐานการประเมิน AI ที่ยุติธรรมและมีความหมาย

เมื่อความสามารถในการเขียนโค้ดของ AI ยังคงก้าวหน้าต่อไป ชุมชนจะต้องสร้างสมดุลระหว่างการเข้าถึง ความยุติธรรม และการป้องกันการเล่นกล SWE-Bench Pro แสดงถึงแนวทางหนึ่งต่อความท้าทายเหล่านี้ แต่การตอบรับที่หลากหลายแสดงให้เห็นว่าการหาสมดุลที่เหมาะสมยังคงเป็นความท้าทายอย่างต่อเนื่องสำหรับสาขานี้

อ้างอิง: scaleapi/SWE-bench_Pro-os