Anthropic เปิดตัว Claude Opus 4.5 ทำงานวิศวกรรมแซงมนุษย์ ลดต้นทุน 67%

ทีมบรรณาธิการ BigGo

Anthropic เปิดตัว Claude Opus 4.5 ทำงานวิศวกรรมแซงมนุษย์ ลดต้นทุน 67%

Anthropic ได้เปิดตัว Claude Opus 4.5 โดยวางตำแหน่งให้เป็นมาตรฐานใหม่ของความสามารถ AI ด้านการเขียนโค้ด การใช้เหตุผลที่ซับซ้อน และการทำงานอัตโนมัติในโลกจริง การเปิดตัวครั้งนี้ไม่เพียงแสดงให้เห็นถึงความก้าวหน้าทางเทคนิคอย่างมีนัยสำคัญ แต่ยังทำให้ AI ประสิทธิภาพสูงเข้าถึงได้ง่ายขึ้นผ่านการลดราคาอย่างมาก ซึ่งอาจเร่งการนำไปใช้ในองค์กรต่างๆ

การเปรียบเทียบราคา (ต่อล้านโทเค็น)

รุ่นโมเดล	ราคาอินพุต	ราคาเอาต์พุต
Opus รุ่นก่อนหน้า	15 USD	75 USD
Opus 4.5	5 USD	25 USD
การลดราคา: 67% สำหรับทั้งโทเค็นอินพุตและเอาต์พุต

ความก้าวหน้าครั้งสำคัญในการประเมินเชิงเทคนิค

ในการประเมินภายในอย่างเข้มงวด Claude Opus 4.5 บรรลุผลที่ Anthropic อธิบายว่าเป็นผลลัพธ์สำคัญ: ทำคะแนนได้ดีกว่าผู้สมัครที่เป็นมนุษย์ทั้งหมดในการทดสอบแบบทำที่บ้านซึ่งออกแบบมาสำหรับตำแหน่งงานวิศวกรรมประสิทธิภาพสูง การประเมินแบบจับเวลาสองชั่วโมง ซึ่งวัดความสามารถทางเทคนิคและการตัดสินใจภายใต้ความกดดัน ทำให้โมเดลนี้ได้คะแนนสูงกว่าผู้เข้าทดสอบที่เป็นมนุษย์ใดๆ ในประวัติศาสตร์ของบริษัท ผลการปฏิบัติงานนี้ได้จุดประกายการอภิปรายอย่างจริงจังภายใน Anthropic เกี่ยวกับว่า AI จะเปลี่ยนแปลงวิชาชีพวิศวกรรมอย่างไร โดยทีมผลกระทบทางสังคมของบริษัทกำลังศึกษาการเปลี่ยนแปลงที่กำลังจะเกิดขึ้นต่อกำลังแรงงานอย่างแข็งขัน

ตัวชี้วัดประสิทธิภาพ

ทำคะแนนได้สูงกว่าผู้สมัครที่เป็นมนุษย์ทั้งหมดในการทดสอบความสามารถด้านวิศวกรรม
ลดจำนวนโทเคนผลลัพธ์ลง 76% เมื่อเทียบกับ Sonnet 4.5 ในโหมดความพยายามระดับปานกลาง
ลดจำนวนโทเคนผลลัพธ์ลง 48% เมื่อเทียบกับ Sonnet 4.5 ในโหมดความพยายามระดับสูง
การประเมินงานวิจัยเชิงลึกดีขึ้น 15 เปอร์เซ็นต์
ความสามารถด้านการมองเห็น การให้เหตุผล และคณิตศาสตร์ได้รับการปรับปรุงให้ดีขึ้น

ความสามารถในการใช้เหตุผลและการแก้ปัญหาที่เพิ่มขึ้น

ความสามารถในการใช้เหตุผลขั้นสูงของโมเดลปรากฏชัดเป็นพิเศษในเกณฑ์มาตรฐาน τ2-bench ซึ่ง Claude Opus 4.5 แสดงให้เห็นถึงความคิดสร้างสรรค์ในการแก้ปัญหาที่ไม่คาดคิด เมื่อได้รับมอบหมายให้จำลองตัวแทนบริการสายการบินที่ต้องปฏิเสธการเปลี่ยนแปลงตั๋ว "ชั้นประหยัด" ตามพารามิเตอร์การทดสอบ โมเดลกลับระบุวิธีแก้ปัญหาที่ถูกต้องตามนโยบายของสายการบิน: แนะนำให้ลูกค้าอัพเกรดชั้นที่นั่งก่อน แล้วจึงเปลี่ยนวันที่เดินทาง แนวทางนี้ แม้จะล้มเหลวตามเกณฑ์ความสำเร็จที่กำหนดไว้ล่วงหน้าของเกณฑ์มาตรฐาน แต่ก็แสดงให้เห็นถึงความสามารถของโมเดลในการค้นหาวิธีแก้ปัญหาที่สร้างสรรค์ซึ่งสอดคล้องกับกฎระเบียบในขณะที่ตอบสนองความต้องการของลูกค้า — ความสามารถที่ Anthropic อธิบายว่าเป็นการให้ "โซลูชันที่ลึกซึ้ง" ซึ่งผู้ใช้พบว่ามีค่าในการใช้งานจริง

การลดต้นทุนและปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ

บางทีการเปลี่ยนแปลงที่มีผลกระทบทันทีที่สุดสำหรับนักพัฒนาคือการลดราคาอย่างมากสำหรับการเข้าถึงความสามารถระดับ Opus ราคาอินพุตลดลงเหลือ 5 ดอลลาร์สหรัฐ ต่อล้านโทเค็น (ลดจาก 15 ดอลลาร์สหรัฐ) ในขณะที่ต้นทุนเอาต์พุตตอนนี้อยู่ที่ 25 ดอลลาร์สหรัฐ ต่อล้านโทเค็น (ลดลง 67% จากเดิม 75 ดอลลาร์สหรัฐ) นอกเหนือจากราคาล้วนๆ แล้ว โมเดลยังแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นผ่านขั้นตอนการทำงานที่ลดลงและการย้อนกลับไปมาในกระบวนการใช้เหตุผลที่น้อยลง ส่งผลให้การบริโภคโทเค็นโดยรวมลดลง Anthropic ได้แนะนำพารามิเตอร์ใหม่ "effort" ที่ช่วยให้นักพัฒนาสามารถปรับสมดุลระหว่างความเร็ว ต้นทุน และความสามารถตามความต้องการเฉพาะของพวกเขา

คุณลักษณะด้านความปลอดภัยและความมั่นคงขั้นสูง

Anthropic อ้างว่า Claude Opus 4.5 เป็นโมเดลที่สอดคล้องกับเจตนามากที่สุดเท่าที่เคยมีมา โดยบริษัทคาดการณ์ว่ามันเป็นผู้นำอุตสาหกรรมในด้านความสอดคล้องในบรรดาโมเดล Frontier รุ่นใหม่นี้รวมถึงการป้องกันที่เข้มแข็งขึ้นต่อการโจมตีแบบ prompt injection ซึ่งให้การปกป้องที่ดีขึ้นต่อคำสั่งที่หลอกลวง — การปรับปรุงที่สำคัญสำหรับลูกค้าเอ็นเตอร์ไพรส์ที่นำไปใช้ AI ในแอปพลิเคชันที่สำคัญ บริษัทยอมรับว่าความสามารถในการแก้ปัญหาอย่างสร้างสรรค์ของโมเดล แม้โดยทั่วไปจะเป็นประโยชน์ แต่ก็อาจถูกใช้เพื่อ "reward hacking" ในบางบริบท ทำให้การปรับปรุงด้านความปลอดภัยเหล่านี้มีความสำคัญเป็นพิเศษสำหรับการใช้งานที่ปลอดภัย

การผสานรวมแพลตฟอร์มและเครื่องมือนักพัฒนาที่ขยายออก

การเปิดตัวมาพร้อมกับการอัปเดตที่สำคัญต่อระบบนิเวศนักพัฒนาของ Anthropic โดย Claude Code ตอนนี้มีโหมด Plan ที่ได้รับการปรับปรุงซึ่งเริ่มต้นด้วยการถามคำถามเพื่อขอคำชี้แจงก่อนที่จะสร้างไฟล์ plan.md ที่สามารถแก้ไขได้และดำเนินการงาน สภาพแวดล้อมการพัฒนายังขยายไปสู่แอปพลิเคชันเดสก์ท็อป โดยรองรับเซสชันท้องถิ่นและระยะไกลหลายเซสชันพร้อมกัน สำหรับแอปพลิเคชันผู้บริโภค Claude ตอนนี้สามารถสรุปบริบทการสนทนาโดยอัตโนมัติเพื่อสนับสนุนบทสนทนาที่ยาวขึ้น ในขณะที่ Claude for Chrome เปิดให้ผู้ใช้ Max ทุกคนและ Claude for Excel ขยายการเข้าถึงเบต้าไปยังระดับเอ็นเตอร์ไพรส์มากขึ้น

ความพร้อมใช้งานของแพลตฟอร์ม

แอปพลิเคชันและ API ของ Anthropic
แพลตฟอร์มคลาวด์หลัก
รุ่น API: claude-opus-4-5-20251101
Claude for Chrome (ผู้ใช้ Max ทุกคน)
Claude for Excel (การเข้าถึงเบต้าที่ขยายเพิ่มเติม)
การสนับสนุนแอปพลิเคชันเดสก์ท็อป

ผลกระทบที่กว้างขึ้นต่อการพัฒนา AI

การเปิดตัวนี้ส่งสัญญาณถึงการเปลี่ยนแปลงในวิธีที่บริษัท AI แตกต่างโมเดลของพวกเขา — ย้ายไปไกลกว่าการปรับปรุงความสามารถดิบๆ ไปสู่รูปแบบการโต้ตอบที่ซับซ้อนมากขึ้นและผลได้ด้านประสิทธิภาพในทางปฏิบัติ ความสามารถของ Claude Opus 4.5 ในการ "จัดการกับความคลุมเครือและใช้เหตุผลเกี่ยวกับการแลกเปลี่ยนโดยไม่ต้องจูงมือ" ตามที่ Anthropic อธิบาย แสดงให้เห็นถึงขอบเขตต่อไปของความสามารถในการใช้งานของ AI ด้วยโมเดลที่ตอนนี้พร้อมใช้งานผ่าน API ของ Anthropic, แอปพลิเคชัน และแพลตฟอร์มคลาวด์หลัก องค์กรทุกขนาดสามารถใช้ประโยชน์จากความสามารถขั้นสูงเหล่านี้ ซึ่งอาจเร่งการบูรณาการ AI เข้ากับการดำเนินธุรกิจประจำวันและเวิร์กโฟลว์การพัฒนาซอฟต์แวร์

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌