Anthropic เปิดตัว Claude Opus 4.5 ทำงานโค้ดแซงมนุษย์ พลิกโฉมการเขียนโปรแกรมด้วย AI

ทีมบรรณาธิการ BigGo
Anthropic เปิดตัว Claude Opus 4.5 ทำงานโค้ดแซงมนุษย์ พลิกโฉมการเขียนโปรแกรมด้วย AI

ในการก้าวกระโดดครั้งสำคัญของปัญญาประดิษฐ์ Anthropic ได้เปิดตัว Claude Opus 4.5 โมเดลระดับแฟลกชิปใหม่ที่กำลังกำหนดมาตรฐานอันน่าทึ่งในด้านวิศวกรรมซอฟต์แวร์และการแก้ปัญหาที่ซับซ้อน การเปิดตัวครั้งนี้มาพร้อมกับความเคลื่อนไหวมากมายจากแล็บ AI ชั้นนำ โดยวางตำแหน่งตัวเองไม่ใช่แค่การอัปเดตเล็กน้อย แต่เป็นการก้าวไปข้างหน้าอย่างมากสู่ระบบ AI ที่มีความสามารถและประสิทธิภาพมากขึ้น ผลการทำงานของโมเดล โดยเฉพาะในด้านการเขียนโค้ดและงานที่ใช้เอเจนต์ บ่งชี้ว่าเรากำลังก้าวเข้าสู่ยุคใหม่ที่ AI สามารถจัดการกับความท้าทายในการพัฒนาตั้งแต่ต้นจนจบด้วยทักษะที่ไม่เคยมีมาก่อน

มาตรฐานใหม่ในวิศวกรรมซอฟต์แวร์

Claude Opus 4.5 ได้แสดงความสามารถอันล้ำลึกในวิศวกรรมซอฟต์แวร์โลกจริง ด้วยการเป็นโมเดล AI รุ่นแรกที่ทำคะแนนได้เกิน 80% ในการทดสอบ SWE-Bench Verified ที่ท้าทาย บenchmark นี้ประเมินความสามารถของโมเดลในการแก้ไขปัญหาซอฟต์แวร์จริงที่พบในโปรเจกต์โอเพนซอร์ส ทำให้เป็นการทดสอบทักษะการเขียนโค้ดเชิงปฏิบัติที่เข้มงวด ความชำนาญของโมเดลครอบคลุมหลายภาษาโปรแกรมมิ่ง โดยมันทำผลงานได้ดีที่สุดในเจ็ดจากแปดภาษาที่ได้รับการประเมินใน benchmark SWE-bench Multilingual สิ่งที่น่าประทับใจที่สุดอาจเป็นเมื่อ Anthropic นำแบบทดสอบแบบ take-home ความยากระดับสูง ซึ่งใช้ในการรับสมัครวิศวกรประสิทธิภาพ มาทดสอบกับ Claude Opus 4.5 ผลคือ AI ตัวนี้ทำได้ดีกว่าผู้สมัครที่เป็นมนุษย์ทั้งหมดภายในขีดจำกัดเวลาสองชั่วโมง ซึ่งบ่งชี้ถึงขีดความสามารถใหม่ของ AI ในด้านเทคนิค

เกณฑ์มาตรฐานประสิทธิภาพ:

  • SWE-Bench Verified: รุ่นแรกที่ทำคะแนนได้มากกว่า 80%
  • SWE-bench Multilingual: ทำผลงานได้ดีที่สุดใน 7 จาก 8 ภาษาโปรแกรมมิ่ง
  • BrowseComp-Plus: พัฒนาขึ้น 4.7% เมื่อเทียบกับ Claude Sonnet 4.5
  • การประเมินความปลอดภัยภายใน: อัตราพฤติกรรมน่ากังวลประมาณ 10% (เทียบกับประมาณ 20% สำหรับ GPT-5.1 และ Gemini 3 Pro)

เหนือกว่าโค้ด: การใช้เหตุผลขั้นสูงและการแก้ปัญหาอย่างสร้างสรรค์

ความก้าวหน้าของโมเดลไม่จำกัดอยู่แค่งานโปรแกรมมิ่งแบบดั้งเดิม Claude Opus 4.5 แสดงให้เห็นถึงความสามารถในการใช้เหตุผลที่ซับซ้อน ซึ่งบางครั้งก็เกินความคาดหมายของการประเมินมาตรฐาน ในตัวอย่างเด่นหนึ่งจากแบบทดสอบความสามารถเอเจนต์ τ²-bench ซึ่งโมเดลได้รับมอบหมายให้ทำหน้าที่เป็นพนักงานบริการลูกค้าของสายการบิน มันสามารถแก้ไขสถานการณ์ที่มีข้อจำกัดได้อย่างสร้างสรรค์ แทนที่จะเพียงแค่ปฏิเสธคำขอของผู้โดยสารที่ต้องการเปลี่ยนตั๋วโดยสารคลาสพื้นฐานที่ไม่ได้กำหนดเงื่อนไขการคืนเงิน ตามที่แบบทดสอบคาดไว้ Opus 4.5 กลับหาทางออกที่ปฏิบัติตามกฎได้ นั่นคืออัปเกรดผู้โดยสารไปยังคลาสเศรษฐกิจมาตรฐานก่อน จากนั้นจึงเปลี่ยนเที่ยวบิน การแก้ปัญหาเชิงสร้างสรรค์แบบนี้แสดงให้เห็นถึง AI ที่ไม่เพียงแต่ทำตามกฎ แต่ยังเข้าใจระบบได้ดีพอที่จะทำงานภายในข้อจำกัดเพื่อบรรลุผลลัพธ์ที่ต้องการ

การเพิ่มประสิทธิภาพอย่างมีนัยสำคัญและการลดต้นทุน

Anthropic ได้ปรับปรุงประสิทธิภาพของโมเดลควบคู่ไปกับการเพิ่มความสามารถอย่างมาก Claude Opus 4.5 บรรลุผลลัพธ์ที่ดีขึ้นในขณะที่ใช้โทเค็นน้อยลงอย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อน บริษัทได้แนะนำพารามิเตอร์ "effort" ใน API ที่ช่วยให้นักพัฒนาสามารถปรับสมดุลระหว่างความเร็ว/ต้นทุน และความสามารถสูงสุดได้ ที่การตั้งค่าระดับความพยาย์ปานกลาง Opus 4.5 ทำผลงานได้เทียบเท่ากับประสิทธิภาพที่ดีที่สุดของ Sonnet 4.5 ใน SWE-bench Verified ในขณะที่ลดจำนวนโทเค็นผลลัพธ์ลง 76% ที่ระดับความพยาย์สูงสุด มันทำได้ดีกว่า Sonnet 4.5 อยู่ 4.3 เปอร์เซ็นต์ ในขณะที่ยังคงใช้โทเค็นน้อยลง 48% การเพิ่มประสิทธิภาพเหล่านี้มาพร้อมกับการลดราคาอย่างมาก — Claude Opus 4.5 ถูกกำหนดราคาอยู่ที่ 5 ดอลลาร์สหรัฐ ต่อล้านโทเค็นอินพุต และ 25 ดอลลาร์สหรัฐ ต่อล้านโทเค็นเอาต์พุต ซึ่งมีราคาเพียงหนึ่งในสามของโมเดล Opus 4.1 รุ่นก่อนหน้า

การปรับปรุงประสิทธิภาพ:

  • ความพยายามระดับปานกลาง: โทเค็นผลลัพธ์น้อยลง 76% เมื่อเทียบกับ Sonnet 4.5 (ประสิทธิภาพเท่าเดิม)
  • ความพยายามสูงสุด: โทเค็นผลลัพธ์น้อยลง 48% เมื่อเทียบกับ Sonnet 4.5 (+4.3% ประสิทธิภาพ)
  • เครื่องมือค้นหาเครื่องมือ: ลดการใช้โทเค็นลงประมาณ 85% สำหรับงานที่ใช้เครื่องมือหนัก

การใช้เครื่องมือที่ได้รับการปรับปรุงและการประสานงานหลายเอเจนต์

การอัปเดตล่าสุดนี้นำเสนอความสามารถในการจัดการเครื่องมือที่ซับซ้อน ซึ่งแก้ไขข้อจำกัดก่อนหน้าในสภาพแวดล้อมที่ซับซ้อน วิธีการแบบดั้งเดิมจำเป็นต้องโหลดคำจำกัดความเครื่องมือที่เป็นไปได้ทั้งหมดเข้าสู่บริบทในครั้งเดียว ซึ่งอาจใช้โทเค็นเกิน 100,000 โทเค็นก่อนที่การสนทนาจะเริ่มต้นเสียอีก Tool Search Tool ใหม่ของ Anthropic ช่วยให้ Claude ค้นพบเครื่องมือแบบไดนามิกตามความจำเป็น ซึ่งลดการใช้งานโทเค็นลงประมาณ 85% Programmatic Tool Calling อนุญาตให้เรียกใช้เครื่องมือโดยตรงภายในโค้ด ทำให้หลีกเลี่ยงการใช้เหตุผลซ้ำๆ สำหรับการเรียกใช้แต่ละครั้ง การปรับปรุงเหล่านี้ ร่วมกับการจัดการบริบทที่ได้รับการปรับปรุง ทำให้ Opus 4.5 สามารถประสานงานเอเจนต์ย่อยหลายตัวได้อย่างมีประสิทธิภาพ นำไปสู่การปรับปรุงเกือบ 15 เปอร์เซ็นต์ในการประเมินการค้นคว้าเชิงลึก

การขยายการผสานรวมแพลตฟอร์มและประสบการณ์ผู้ใช้

ด้วยการเปิดตัวครั้งนี้ Anthropic ได้ขยายการผสานรวมระบบนิเวศของ Claude อย่างมีนัยสำคัญ Claude Code ได้รับการอัปเดตสำคัญสองครั้ง: โหมดวางแผน (Plan Mode) ที่ได้รับการปรับปรุง ซึ่งสร้างแผนการดำเนินงานที่แม่นยำยิ่งขึ้นด้วยไฟล์ plan.md ที่ผู้ใช้สามารถแก้ไขได้ และการรองรับแอปพลิเคชันเดสก์ท็อปที่เปิดใช้งานการรันเซสชันภายในเครื่องหรือระยะไกลหลายเซสชันพร้อมกัน แพลตฟอร์มนี้มาพร้อมกับคุณสมบัติ "บทสนทนาไม่รู้จบ" ซึ่งผู้ใช้แบบจ่ายเงินสามารถสนทนาต่อไปได้เกินขีดจำกัดหน้าต่างบริบท ผ่านการบีบอัดบริบทอัตโนมัติ Claude for Chrome พร้อมให้บริการผู้ใช้ Max ทุกคนแล้ว ช่วยให้สามารถทำงานต่างๆ ผ่านแท็บเบราว์เซอร์ได้ ในขณะที่เบตาของ Claude for Excel ได้ขยายไปยังผู้ใช้ Max, Team และ Enterprise โดยใช้ประโยชน์จาก Programmatic Tool Calling เพื่อจัดการกับแถวข้อมูลหลายพันแถวโดยไม่ทำให้หน้าต่างบริบทรับภาระเกินไป

ความพร้อมใช้งานบนแพลตฟอร์ม:

  • Claude แอปพลิเคชันและ API
  • AWS, Google Cloud และ Microsoft Azure
  • Claude for Chrome (ผู้ใช้ Max ทุกคน)
  • Claude for Excel รุ่นเบต้า (ผู้ใช้ Max, Team, Enterprise)
  • แอปพลิเคชันเดสก์ท็อปพร้อมการสนับสนุนหลายเซสชัน

การพิจารณาด้านความปลอดภัยและความมั่นคง

ในขณะที่ฉลองความสามารถในการแก้ปัญหาอย่างสร้างสรรค์ของโมเดล Anthropic ก็ยอมรับถึงความสำคัญของการจัดการพฤติกรรมที่ไม่คาดคิด บริษัทรายงานว่าในการประเมินภายใน Claude Opus 4.5 แสดงพฤติกรรมที่น่ากังวลในกรณีที่มากกว่า 10% เล็กน้อย — ซึ่งต่ำกว่าอัตราประมาณ 20% ที่สังเกตได้จาก GPT-5.1 และ Gemini 3 Pro อย่างมีนัยสำคัญ โมเดลยังแสดงการต้านทานที่ improved ต่อการโจมตีแบบ prompt injection ทำให้มันถูกหลอกได้ยากกว่าโมเดล Frontier ชั้นนำอื่นๆ แนวทางที่สมดุลระหว่างความสามารถและความปลอดภัยนี้สะท้อนถึงความมุ่งมั่นของ Anthropic ในการพัฒนาระบบ AI ที่ทรงพลังแต่มีความรับผิดชอบ

อนาคตของการพัฒนาที่ได้รับความช่วยเหลือจาก AI

Claude Opus 4.5 เป็นตัวแทนของการเปลี่ยนแปลงจาก AI ในฐานะผู้ช่วยเขียนโค้ด สู่ AI ในฐานะหุ้นส่วนการพัฒนาที่ครอบคลุม ประสบการณ์ผู้ใช้ในระยะแรกแสดงให้เห็นถึงการเปลี่ยนแปลงนี้ โดยนักพัฒนาได้แบ่งปันตัวอย่างของโมเดลที่สร้างเว็บไซต์ช้อปปิ้งที่สมบูรณ์ด้วยตัวเอง สร้างเกมโคลน Minecraft ที่ซับซ้อนด้วยโค้ด 3,500 บรรทัด ซึ่งรวมถึงฟีเจอร์ซับซ้อนอย่างบล็อกโปร่งแสงและระบบคลังสินค้า และสร้างส่วน hero สำหรับแอปพลิเคชันเว็บระดับมืออาชีพ ในขณะที่โมเดลอย่าง Opus 4.5 ก้าวหน้าต่อไปในการจัดการงานระยะยาว (long-horizon tasks) การประสานงานหลายเอเจนต์ และการทำโปรเจกต์ตั้งแต่ต้นจนจบ พวกมันสัญญาว่าจะปรับโฉมเวิร์กโฟลว์การพัฒนาซอฟต์แวร์และสิ่งที่สามารถทำได้ด้วยการทำงานร่วมกันของ AI อย่างถึงรากถึงโคน