Qwen3-235B-A22B-Thinking-2507 เผชิญคำถามเรื่องความแม่นยำของเบนช์มาร์กแม้จะอ้างผลงานที่แข็งแกร่ง

ทีมชุมชน BigGo
Qwen3-235B-A22B-Thinking-2507 เผชิญคำถามเรื่องความแม่นยำของเบนช์มาร์กแม้จะอ้างผลงานที่แข็งแกร่ง

โมเดล AI ล่าสุดของ Alibaba ที่ชื่อ Qwen3-235B-A22B-Thinking-2507 ได้จุดประกายการอภิปรายอย่างมีนัยสำคัญในชุมชน AI ไม่เพียงแค่เพราะคะแนนเบนช์มาร์กที่น่าประทับใจ แต่ยังรวมถึงคำถามเกี่ยวกับความแม่นยำของผลลัพธ์ที่รายงานบางส่วนด้วย โมเดลนี้เป็นการอัปเดตครั้งใหญ่ของความสามารถในการคิดของ Qwen โดยมีความสามารถในการใช้เหตุผลที่ได้รับการปรับปรุงและความเข้าใจบริบทแบบยาวได้ถึง 362,144 โทเค็นแบบเนทีฟ

ข้อมูลจำเพาะของโมเดล

  • พารามิเตอร์ทั้งหมด: 235B (110B ที่ถูกเปิดใช้งาน)
  • สถาปัตยกรรม: Mixture-of-Experts พร้อม 128 experts (8 ตัวที่เปิดใช้งาน)
  • ความยาว Context: 362,144 tokens แบบ native
  • ชั้น: 94
  • หัว Attention: 60 สำหรับ Q และ K, 6 สำหรับ KV
  • ใบอนุญาต: Apache 2.0
รูปภาพนี้แสดงการ์ดโมเดลสำหรับ Qwen3-235B-A22B-Thinking-2507 โดยเน้นความสามารถในการใช้เหตุผลขั้นสูงและความเข้าใจบริบทแบบยาว
รูปภาพนี้แสดงการ์ดโมเดลสำหรับ Qwen3-235B-A22B-Thinking-2507 โดยเน้นความสามารถในการใช้เหตุผลขั้นสูงและความเข้าใจบริบทแบบยาว

ความแตกต่างในการรายงานเบนช์มาร์กก่อให้เกิดความกังวล

ความขัดแย้งที่น่าสังเกตได้เกิดขึ้นเกี่ยวกับความแม่นยำของเบนช์มาร์ก ทีม Qwen รายงานคะแนน 41.8% ในเบนช์มาร์ก ARC-AGI สำหรับโมเดลแบบไม่คิดของพวกเขาในตอนแรก ซึ่งจะเป็นการแสดงถึงความสำเร็จที่เป็นจุดเปลี่ยน อย่างไรก็ตาม เมื่อทีม ARC ทดสอบโมเดลเดียวกันอย่างอิสระ พวกเขาพบคะแนนเพียง 11% เท่านั้น ซึ่งยังถือว่าน่านับถือ แต่แตกต่างจากการอ้างเดิมอย่างมาก

ความแตกต่างนี้ทำให้ชุมชน AI งุนงง โดยไม่มีคำอธิบายที่ชัดเจนจากทีมของ Qwen ความแตกต่างนี้โดดเด่นเป็นพิเศษเพราะแสดงถึงความแปรปรวนสี่เท่าในประสิทธิภาพที่รายงาน ทำให้เกิดคำถามเกี่ยวกับวิธีการทดสอบและกระบวนการตรวจสอบผลลัพธ์

ไฮไลท์ผลการดำเนินงานหลัก

  • GPQA: 80.3% (เทียบกับ Claude3 Opus Thinking: 78.6%)
  • LiveCodeBench: 74.1% (คะแนนนำหน้า)
  • Arena Hard v1.2: 87.7%
  • IFEval: 97.8%
  • ข้อถกเถียงเรื่อง ARC-AGI: รายงานเริ่มแรก 41.8% แต่การตรวจสอบอิสระพบว่า 11%

ความสามารถทางเทคนิคและการตอบรับจากชุมชน

แม้จะมีความขัดแย้งเรื่องเบนช์มาร์ก แต่โมเดลนี้แสดงข้อมูลจำเพาะทางเทคนิคที่น่าประทับใจ มีพารามิเตอร์ทั้งหมด 235 พันล้านตัวโดยมี 110 พันล้านตัวที่ถูกเปิดใช้งาน ใช้สถาปัตยกรรม mixture-of-experts ที่มี 128 ผู้เชี่ยวชาญ (8 ตัวที่เปิดใช้งาน) และรองรับโหมดการคิดเท่านั้น โมเดลแสดงประสิทธิภาพที่แข็งแกร่งในงานต่างๆ รวมถึงการเขียนโค้ด คณิตศาสตร์ และความท้าทายในการใช้เหตุผล

สมาชิกชุมชนได้สังเกตตำแหน่งการแข่งขันของโมเดลเมื่อเทียบกับระบบ AI ชั้นนำอื่นๆ หากผลลัพธ์เบนช์มาร์กผ่านการตรวจสอบได้ นี่จะเป็นตัวแทนของอัตราส่วนความสามารถต่อพารามิเตอร์ที่ยอดเยี่ยม โดยเฉพาะสำหรับโมเดลโอเพนซอร์สที่เปิดตัวภายใต้ใบอนุญาต Apache 2.0

การนำไปใช้ในทางปฏิบัติและการเพิ่มประสิทธิภาพ

ชุมชนนักพัฒนา AI ได้เคลื่อนไหวอย่างรวดเร็วเพื่อทำให้โมเดลสามารถเข้าถึงได้สำหรับการอนุมานในเครื่อง เทคนิคการ quantization เฉพาะทางกำลังถูกพัฒนาเพื่อเรียกใช้โมเดลบนฮาร์ดแวร์ผู้บริโภค โดยมีระดับการบีบอัดต่างๆ เพื่อสร้างสมดุลระหว่างประสิทธิภาพและความต้องการหน่วยความจำ

ฮาร์ดแวร์และต้นทุนถือว่าอยู่ในระดับเดสก์ท็อปโดยประมาณ หากคุณมีเครื่องเล่นเกมที่มี RTX 4090 และ RAM 128GB คุณสามารถเรียกใช้สิ่งนี้ได้หากคุณเลือก quant ที่ถูกต้อง

สำหรับการปรับใช้ในองค์กร โมเดลต้องการทรัพยากรการคำนวณที่มีนัยสำคัญ โดยมีคำแนะนำสำหรับฮาร์ดแวร์ H200 หรือ B200 เพื่อประสิทธิภาพที่เหมาะสมเมื่อประมวลผลการติดตามการใช้เหตุผลขนาดใหญ่และบริบทอินพุตที่มีขนาดใหญ่

ข้อกำหนดด้านฮาร์ดแวร์

  • ขั้นต่ำสำหรับการประมวลผลภายในเครื่อง: RTX 4090 พร้อม RAM 128GB (ใช้ร่วมกับการบีบอัดข้อมูล)
  • การติดตั้งใช้งานระดับองค์กร: แนะนำให้ใช้ฮาร์ดแวร์ H200 หรือ B200
  • คำแนะนำเกี่ยวกับความยาวของบริบท: มากกว่า 131,072 โทเค็นเพื่อการใช้เหตุผลที่เหมาะสมที่สุด
  • ความยาวของผลลัพธ์: 32,768 โทเค็น (มาตรฐาน), 81,920 โทเค็น (งานที่ซับซ้อน)

ภูมิทัศน์การแข่งขันและผลกระทบเชิงกลยุทธ์

การเปิดตัวนี้เน้นย้ำการแข่งขันที่กำลังดำเนินอยู่ระหว่างห้องปฏิบัติการ AI ของจีนและตะวันตก ผู้สังเกตการณ์ชุมชนสังเกตว่าบริษัทจีนอย่าง Alibaba ยังคงเปิดตัวโมเดลโอเพนซอร์สขนาดใหญ่ ในขณะที่บริษัทอเมริกันมักจะมุ่งเน้นไปที่ขนาดที่เล็กกว่าและทำกำไรได้มากกว่าในเชิงพาณิชย์ หรือเก็บโมเดลที่ใหญ่ที่สุดของพวกเขาไว้เป็นกรรมสิทธิ์

ความแตกต่างเชิงกลยุทธ์นี้สะท้อนถึงรูปแบบธุรกิจและสภาพแวดล้อมการกำกับดูแลที่หลากหลาย ห้องปฏิบัติการจีนดูเหมือนจะใช้การเปิดตัวโอเพนซอร์สเป็นกลยุทธ์การแข่งขัน อาจรบกวนรูปแบบรายได้ที่ใช้การอนุมานของบริษัท AI ตะวันตก ในขณะที่สร้างอิทธิพลทางเทคโนโลยีทั่วโลก

การอ้างประสิทธิภาพของโมเดล หากได้รับการตรวจสอบ จะทำให้มันมีตำแหน่งการแข่งขันกับระบบกรรมสิทธิ์อย่าง Gemini 2.5 Pro และ GPT-4 ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับองค์กรที่แสวงหาความสามารถ AI ที่ทรงพลังโดยไม่ต้องล็อคกับผู้ขายหรือข้อจำกัดการใช้งาน

อ้างอิง: Qwen3-235B-A22B-Thinking-2507