Anthropic ได้เปิดตัว Claude Sonnet 4.5 โดยอ้างว่าเป็นโมเดลเขียนโค้ดที่ดีที่สุดในโลกด้วยคะแนน 77.2% ในการประเมิน SWE-bench verified อย่างไรก็ตาม ความคิดเห็นเบื้องต้นจากนักพัฒนาเผยให้เห็นภาพที่ซับซ้อนซึ่งไม่ตรงกับตัวเลขผลการทดสอบที่น่าประทับใจเสมอไป
โมเดลใหม่นี้คงราคาเดิมเท่ากับรุ่นก่อนหน้าที่ 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน prompt token พร้อมกับการแนะนำการอัปเดตผลิตภัณฑ์หลายอย่าง รวมถึง Claude Code 2.0 ที่มีฟีเจอร์ checkpoint ส่วนขยาย VS Code แบบ native และเครื่องมือทดลอง Imagine with Claude ที่สร้างซอฟต์แวร์แบบเรียลไทม์
ข้อมูลจำเพาะหลักของ Claude Sonnet 4.5:
- คะแนน SWE-bench ที่ได้รับการยืนยัน: 77.2% (เพิ่มขึ้นจาก 72.7% ใน Sonnet 4)
- ราคา: 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน prompt tokens (ไม่เปลี่ยนแปลง)
- คะแนนเต็มในเกณฑ์มาตรฐานคณิตศาสตร์ AIME
- อ้างว่าสามารถทำงานโดยไม่ต้องดูแลได้นานกว่า 30 ชั่วโมง
- ราคาเดียวกับ Claude Sonnet 4
![]() |
---|
แนะนำ Claude Sonnet 45 โดยแสดงให้เห็นความสามารถขั้นสูงในด้านการเขียนโค้ดและการพัฒนา AI |
ประสิทธิภาพในโลกจริงแสดงผลลัพธ์ที่หลากหลาย
แม้จะมีการปรับปรุงผลการทดสอบ แต่นักพัฒนารายงานประสบการณ์ที่ไม่สม่ำเสมอในการใช้งานจริง ผู้ใช้บางคนพบว่าโมเดลนี้เก่งเรื่องความเร็วแต่มีปัญหากับคุณภาพของโค้ด นักพัฒนาคนหนึ่งที่ทดสอบการใช้งาน fuzzy search implementation สังเกตว่าแม้ Sonnet 4.5 จะทำงานเสร็จในเพียง 3 นาทีเมื่อเทียบกับ GPT-5-Codex ที่ใช้เวลา 20 นาที แต่ผลลัพธ์ที่เร็วกว่านั้นกลับมีปัญหาและผิวเผินพร้อมปัญหาการยืนยันตัวตนและขาดการทดสอบ
การสนทนาในชุมชนเผยให้เห็นรูปแบบที่โมเดลต่างๆ มีจุดเด่นในสถานการณ์ที่แตกต่างกัน ผู้ใช้รายงานว่า GPT-5-Codex มีแนวโน้มที่จะสร้างโค้ดที่ครบถ้วนและพร้อมใช้งานจริงมากกว่า พร้อมการจัดการข้อผิดพลาดและการทดสอบที่เหมาะสม ในขณะที่ Claude Sonnet 4.5 ให้ความสำคัญกับความเร็วแต่อาจเสียสละความลึกและความน่าเชื่อถือ
การเปรียบเทียบประสิทธิภาพ (รายงานจากผู้ใช้):
- ความเร็ว: Claude Sonnet 4.5 เร็วกว่าอย่างมีนัยสำคัญ (3 นาที เทียบกับ 20 นาที สำหรับงานที่คล้ายกัน)
- คุณภาพของโค้ด: GPT-5-Codex มีรายงานว่าละเอียดถี่ถ้วนกว่าและมีการจัดการข้อผิดพลาดที่ดีกว่า
- การทดสอบ: GPT-5-Codex เขียนการทดสอบโดยอัตโนมัติ ขณะที่ Claude มักต้องการการกระตุ้น
- การยืนยันตัวตน: ผู้ใช้บางคนรายงานว่า Claude สร้างตรรกะการยืนยันตัวตนใหม่แทนที่จะใช้รูปแบบที่มีอยู่ซ้ำ
![]() |
---|
การวิเคราะห์เปรียบเทียบคะแนนพฤติกรรมที่ไม่สอดคล้องกันระหว่างโมเดลการเขียนโค้ดต่างๆ แสดงให้เห็นความแปรปรวนของประสิทธิภาพที่นักพัฒนารายงาน |
การจัดการบริบทและการผสานรวมเวิร์กโฟลว์
ส่วนสำคัญของความคิดเห็นจากนักพัฒนามุ่งเน้นไปที่ความสามารถในการจัดการบริบท ความสามารถของโมเดลในการรักษาโฟกัสระหว่างเซสชันการเขียนโค้ดที่ยาวนานดูเหมือนจะดีขึ้น โดย Anthropic อ้างว่าสามารถทำงานโดยไม่ต้องดูแลได้นานถึง 30 ชั่วโมงสำหรับงานที่ซับซ้อน อย่างไรก็ตาม ผู้ใช้บางคนรายงานปัญหาที่โมเดลสูญเสียการติดตามบริบทของโครงการหรือตัดสินใจไม่สอดคล้องกันเมื่อทำงานกับโค้ดเบสขนาดใหญ่
การผสานรวมกับเวิร์กโฟลว์การพัฒนาก็แสดงผลลัพธ์ที่หลากหลายเช่นกัน ในขณะที่นักพัฒนาบางคนชื่นชมระบบ checkpoint ใหม่และการปรับปรุงการเลือก terminal แต่คนอื่นๆ สังเกตว่าโมเดลบางครั้งเพิกเฉยต่อรูปแบบโค้ดที่มีอยู่และสร้างส่วนประกอบที่มีอยู่ในโครงการแล้วขึ้นมาใหม่
ฟีเจอร์ใหม่ใน Claude Code 2.0:
- Checkpoints สำหรับบันทึกความคืบหน้าและฟังก์ชันย้อนกลับ
- ส่วนขยาย VS Code แบบเนทีฟ
- ฟีเจอร์การแก้ไขแบบรวมศูนย์และ memory fund สำหรับ API
- ตัวประมวลผลโค้ดและการสร้างไฟล์ในการสนทนา
- ส่วนขยาย Chrome สำหรับผู้ดูแลระบบทีม
- Claude Agent SDK สำหรับสร้างเอเจนต์แบบกำหนดเอง
ช่องว่างระหว่างผลการทดสอบกับความเป็นจริง
ความไม่สอดคล้องระหว่างประสิทธิภาพในการทดสอบกับการใช้งานในโลกจริงได้กลายเป็นธีมที่เกิดขึ้นซ้ำในการสนทนาของชุมชน นักพัฒนาหลายคนแสดงความกังวลว่าบริษัทต่างๆ อาจกำลังปรับให้เหมาะสมกับคะแนนการทดสอบมากกว่าประโยชน์ใช้สอยจริง แนวทางการทดสอบแบบนี้อาจสร้างโมเดลที่เก่งในการประเมินแบบควบคุมแต่ดิ้นรนกับลักษณะที่ยุ่งเหยิงและขึ้นอยู่กับบริบทของการพัฒนาซอฟต์แวร์จริง
การทดสอบ SWE-bench verified แม้จะถูกออกแบบมาเพื่อลดสัญญาณรบกวนในการประเมิน แต่ยังคงมีข้อจำกัดในการจับภาพความซับซ้อนทั้งหมดของการพัฒนาซอฟต์แวร์แบบมืออาชีพ รวมถึงกระบวนการตรวจสอบโค้ด การทำงานร่วมกันในทีม และการพิจารณาความสามารถในการบำรุงรักษาระยะยาว
![]() |
---|
อัตราชนะของโมเดลการเขียนโค้ดต่างๆ ที่เน้นย้ำความแตกต่างระหว่างมาตรฐานการทดสอบกับความเป็นจริงในการประเมินประสิทธิภาพ |
แรงกดดันด้านราคาและการแข่งขัน
ต้นทุนยังคงเป็นปัจจัยสำคัญในการนำโมเดลมาใช้ นักพัฒนาหลายคนกล่าวถึงการเปลี่ยนไปใช้ทางเลือกที่เร็วกว่าและถูกกว่าอย่าง Grok Code Fast สำหรับงานประจำ โดยสงวนโมเดลพรีเมียมไว้สำหรับปัญหาที่ซับซ้อน ราคา 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน token แม้จะไม่เปลี่ยนแปลงจาก Sonnet 4 แต่ยังคงถูกมองว่าแพงเมื่อเทียบกับคู่แข่ง โดยเฉพาะสำหรับนักพัฒนาที่จ่ายเงินเอง
ฉันจะเลือกใช้เวลา 20 นาทีทุกครั้ง เพราะรู้ว่างานที่ทำเสร็จแล้วรู้สึกเหมือนงานที่ทำโดยนักพัฒนาระดับอาวุโส
แรงกดดันด้านราคานี้ทำให้เกิดรูปแบบการใช้งานที่น่าสนใจ โดยนักพัฒนาใช้หลายโมเดลอย่างมีกลยุทธ์ - ใช้ตัวเลือกที่เร็วกว่าและถูกกว่าสำหรับงานเริ่มต้นและใช้โมเดลพรีเมียมสำหรับการปรับแต่งและการแก้ปัญหาที่ซับซ้อน
การเปิดตัว Claude Sonnet 4.5 แสดงถึงความก้าวหน้าแบบเพิ่มขึ้นเป็นลำดับในการช่วยเหลือการเขียนโค้ดด้วย AI แต่ช่องว่างระหว่างการอ้างทางการตลาดกับประสบการณ์ของนักพัฒนายังคงมีนัยสำคัญ ในขณะที่คะแนนการทดสอบยังคงดีขึ้น ความท้าทายเชิงปฏิบัติของคุณภาพโค้ด การตระหนักรู้บริบท และความคุ้มค่าแสดงให้เห็นว่าตำแหน่งโมเดลเขียนโค้ดที่ดีที่สุดอาจขึ้นอยู่กับกรณีการใช้งานเฉพาะและเวิร์กโฟลว์ของนักพัฒนาแต่ละคนเป็นอย่างมาก
อ้างอิง: Introducing Claude Sonnet 4.5