Claude Sonnet 4.5 สร้างปฏิกิริยาแบบผสมผสานจากนักพัฒนาแม้จะอ้างผลการทดสอบที่ดี

ทีมชุมชน BigGo
Claude Sonnet 4.5 สร้างปฏิกิริยาแบบผสมผสานจากนักพัฒนาแม้จะอ้างผลการทดสอบที่ดี

Anthropic ได้เปิดตัว Claude Sonnet 4.5 โดยอ้างว่าเป็นโมเดลเขียนโค้ดที่ดีที่สุดในโลกด้วยคะแนน 77.2% ในการประเมิน SWE-bench verified อย่างไรก็ตาม ความคิดเห็นเบื้องต้นจากนักพัฒนาเผยให้เห็นภาพที่ซับซ้อนซึ่งไม่ตรงกับตัวเลขผลการทดสอบที่น่าประทับใจเสมอไป

โมเดลใหม่นี้คงราคาเดิมเท่ากับรุ่นก่อนหน้าที่ 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน prompt token พร้อมกับการแนะนำการอัปเดตผลิตภัณฑ์หลายอย่าง รวมถึง Claude Code 2.0 ที่มีฟีเจอร์ checkpoint ส่วนขยาย VS Code แบบ native และเครื่องมือทดลอง Imagine with Claude ที่สร้างซอฟต์แวร์แบบเรียลไทม์

ข้อมูลจำเพาะหลักของ Claude Sonnet 4.5:

  • คะแนน SWE-bench ที่ได้รับการยืนยัน: 77.2% (เพิ่มขึ้นจาก 72.7% ใน Sonnet 4)
  • ราคา: 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน prompt tokens (ไม่เปลี่ยนแปลง)
  • คะแนนเต็มในเกณฑ์มาตรฐานคณิตศาสตร์ AIME
  • อ้างว่าสามารถทำงานโดยไม่ต้องดูแลได้นานกว่า 30 ชั่วโมง
  • ราคาเดียวกับ Claude Sonnet 4
แนะนำ Claude Sonnet 45 โดยแสดงให้เห็นความสามารถขั้นสูงในด้านการเขียนโค้ดและการพัฒนา AI
แนะนำ Claude Sonnet 45 โดยแสดงให้เห็นความสามารถขั้นสูงในด้านการเขียนโค้ดและการพัฒนา AI

ประสิทธิภาพในโลกจริงแสดงผลลัพธ์ที่หลากหลาย

แม้จะมีการปรับปรุงผลการทดสอบ แต่นักพัฒนารายงานประสบการณ์ที่ไม่สม่ำเสมอในการใช้งานจริง ผู้ใช้บางคนพบว่าโมเดลนี้เก่งเรื่องความเร็วแต่มีปัญหากับคุณภาพของโค้ด นักพัฒนาคนหนึ่งที่ทดสอบการใช้งาน fuzzy search implementation สังเกตว่าแม้ Sonnet 4.5 จะทำงานเสร็จในเพียง 3 นาทีเมื่อเทียบกับ GPT-5-Codex ที่ใช้เวลา 20 นาที แต่ผลลัพธ์ที่เร็วกว่านั้นกลับมีปัญหาและผิวเผินพร้อมปัญหาการยืนยันตัวตนและขาดการทดสอบ

การสนทนาในชุมชนเผยให้เห็นรูปแบบที่โมเดลต่างๆ มีจุดเด่นในสถานการณ์ที่แตกต่างกัน ผู้ใช้รายงานว่า GPT-5-Codex มีแนวโน้มที่จะสร้างโค้ดที่ครบถ้วนและพร้อมใช้งานจริงมากกว่า พร้อมการจัดการข้อผิดพลาดและการทดสอบที่เหมาะสม ในขณะที่ Claude Sonnet 4.5 ให้ความสำคัญกับความเร็วแต่อาจเสียสละความลึกและความน่าเชื่อถือ

การเปรียบเทียบประสิทธิภาพ (รายงานจากผู้ใช้):

  • ความเร็ว: Claude Sonnet 4.5 เร็วกว่าอย่างมีนัยสำคัญ (3 นาที เทียบกับ 20 นาที สำหรับงานที่คล้ายกัน)
  • คุณภาพของโค้ด: GPT-5-Codex มีรายงานว่าละเอียดถี่ถ้วนกว่าและมีการจัดการข้อผิดพลาดที่ดีกว่า
  • การทดสอบ: GPT-5-Codex เขียนการทดสอบโดยอัตโนมัติ ขณะที่ Claude มักต้องการการกระตุ้น
  • การยืนยันตัวตน: ผู้ใช้บางคนรายงานว่า Claude สร้างตรรกะการยืนยันตัวตนใหม่แทนที่จะใช้รูปแบบที่มีอยู่ซ้ำ
การวิเคราะห์เปรียบเทียบคะแนนพฤติกรรมที่ไม่สอดคล้องกันระหว่างโมเดลการเขียนโค้ดต่างๆ แสดงให้เห็นความแปรปรวนของประสิทธิภาพที่นักพัฒนารายงาน
การวิเคราะห์เปรียบเทียบคะแนนพฤติกรรมที่ไม่สอดคล้องกันระหว่างโมเดลการเขียนโค้ดต่างๆ แสดงให้เห็นความแปรปรวนของประสิทธิภาพที่นักพัฒนารายงาน

การจัดการบริบทและการผสานรวมเวิร์กโฟลว์

ส่วนสำคัญของความคิดเห็นจากนักพัฒนามุ่งเน้นไปที่ความสามารถในการจัดการบริบท ความสามารถของโมเดลในการรักษาโฟกัสระหว่างเซสชันการเขียนโค้ดที่ยาวนานดูเหมือนจะดีขึ้น โดย Anthropic อ้างว่าสามารถทำงานโดยไม่ต้องดูแลได้นานถึง 30 ชั่วโมงสำหรับงานที่ซับซ้อน อย่างไรก็ตาม ผู้ใช้บางคนรายงานปัญหาที่โมเดลสูญเสียการติดตามบริบทของโครงการหรือตัดสินใจไม่สอดคล้องกันเมื่อทำงานกับโค้ดเบสขนาดใหญ่

การผสานรวมกับเวิร์กโฟลว์การพัฒนาก็แสดงผลลัพธ์ที่หลากหลายเช่นกัน ในขณะที่นักพัฒนาบางคนชื่นชมระบบ checkpoint ใหม่และการปรับปรุงการเลือก terminal แต่คนอื่นๆ สังเกตว่าโมเดลบางครั้งเพิกเฉยต่อรูปแบบโค้ดที่มีอยู่และสร้างส่วนประกอบที่มีอยู่ในโครงการแล้วขึ้นมาใหม่

ฟีเจอร์ใหม่ใน Claude Code 2.0:

  • Checkpoints สำหรับบันทึกความคืบหน้าและฟังก์ชันย้อนกลับ
  • ส่วนขยาย VS Code แบบเนทีฟ
  • ฟีเจอร์การแก้ไขแบบรวมศูนย์และ memory fund สำหรับ API
  • ตัวประมวลผลโค้ดและการสร้างไฟล์ในการสนทนา
  • ส่วนขยาย Chrome สำหรับผู้ดูแลระบบทีม
  • Claude Agent SDK สำหรับสร้างเอเจนต์แบบกำหนดเอง

ช่องว่างระหว่างผลการทดสอบกับความเป็นจริง

ความไม่สอดคล้องระหว่างประสิทธิภาพในการทดสอบกับการใช้งานในโลกจริงได้กลายเป็นธีมที่เกิดขึ้นซ้ำในการสนทนาของชุมชน นักพัฒนาหลายคนแสดงความกังวลว่าบริษัทต่างๆ อาจกำลังปรับให้เหมาะสมกับคะแนนการทดสอบมากกว่าประโยชน์ใช้สอยจริง แนวทางการทดสอบแบบนี้อาจสร้างโมเดลที่เก่งในการประเมินแบบควบคุมแต่ดิ้นรนกับลักษณะที่ยุ่งเหยิงและขึ้นอยู่กับบริบทของการพัฒนาซอฟต์แวร์จริง

การทดสอบ SWE-bench verified แม้จะถูกออกแบบมาเพื่อลดสัญญาณรบกวนในการประเมิน แต่ยังคงมีข้อจำกัดในการจับภาพความซับซ้อนทั้งหมดของการพัฒนาซอฟต์แวร์แบบมืออาชีพ รวมถึงกระบวนการตรวจสอบโค้ด การทำงานร่วมกันในทีม และการพิจารณาความสามารถในการบำรุงรักษาระยะยาว

อัตราชนะของโมเดลการเขียนโค้ดต่างๆ ที่เน้นย้ำความแตกต่างระหว่างมาตรฐานการทดสอบกับความเป็นจริงในการประเมินประสิทธิภาพ
อัตราชนะของโมเดลการเขียนโค้ดต่างๆ ที่เน้นย้ำความแตกต่างระหว่างมาตรฐานการทดสอบกับความเป็นจริงในการประเมินประสิทธิภาพ

แรงกดดันด้านราคาและการแข่งขัน

ต้นทุนยังคงเป็นปัจจัยสำคัญในการนำโมเดลมาใช้ นักพัฒนาหลายคนกล่าวถึงการเปลี่ยนไปใช้ทางเลือกที่เร็วกว่าและถูกกว่าอย่าง Grok Code Fast สำหรับงานประจำ โดยสงวนโมเดลพรีเมียมไว้สำหรับปัญหาที่ซับซ้อน ราคา 3 ดอลลาร์สหรัฐต่อหนึ่งล้าน token แม้จะไม่เปลี่ยนแปลงจาก Sonnet 4 แต่ยังคงถูกมองว่าแพงเมื่อเทียบกับคู่แข่ง โดยเฉพาะสำหรับนักพัฒนาที่จ่ายเงินเอง

ฉันจะเลือกใช้เวลา 20 นาทีทุกครั้ง เพราะรู้ว่างานที่ทำเสร็จแล้วรู้สึกเหมือนงานที่ทำโดยนักพัฒนาระดับอาวุโส

แรงกดดันด้านราคานี้ทำให้เกิดรูปแบบการใช้งานที่น่าสนใจ โดยนักพัฒนาใช้หลายโมเดลอย่างมีกลยุทธ์ - ใช้ตัวเลือกที่เร็วกว่าและถูกกว่าสำหรับงานเริ่มต้นและใช้โมเดลพรีเมียมสำหรับการปรับแต่งและการแก้ปัญหาที่ซับซ้อน

การเปิดตัว Claude Sonnet 4.5 แสดงถึงความก้าวหน้าแบบเพิ่มขึ้นเป็นลำดับในการช่วยเหลือการเขียนโค้ดด้วย AI แต่ช่องว่างระหว่างการอ้างทางการตลาดกับประสบการณ์ของนักพัฒนายังคงมีนัยสำคัญ ในขณะที่คะแนนการทดสอบยังคงดีขึ้น ความท้าทายเชิงปฏิบัติของคุณภาพโค้ด การตระหนักรู้บริบท และความคุ้มค่าแสดงให้เห็นว่าตำแหน่งโมเดลเขียนโค้ดที่ดีที่สุดอาจขึ้นอยู่กับกรณีการใช้งานเฉพาะและเวิร์กโฟลว์ของนักพัฒนาแต่ละคนเป็นอย่างมาก

อ้างอิง: Introducing Claude Sonnet 4.5