ปัญหาคุณภาพของ Claude ส่งผลกระทบต่อผู้ใช้ 30% เนื่องจากบั๊กในโครงสร้างพื้นฐาน ไม่ใช่การลดต้นทุน

ทีมชุมชน BigGo
ปัญหาคุณภาพของ Claude ส่งผลกระทบต่อผู้ใช้ 30% เนื่องจากบั๊กในโครงสร้างพื้นฐาน ไม่ใช่การลดต้นทุน

Anthropic ได้เผยแพร่รายงานการวิเคราะห์หลังเหตุการณ์ทางเทคนิคอย่างละเอียด เพื่ออธิบายว่าเหตุใดผู้ใช้ Claude จึงประสบปัญหาคุณภาพการตอบสนองที่ลดลงระหว่างเดือนสิงหาคมและกันยายน 2024 บริษัทเผชิญกับการวิพากษ์วิจารณ์อย่างหนักจากผู้ใช้ที่สงสัยว่ามีการลดคุณภาพโมเดลโดยเจตนาเพื่อประหยัดต้นทุน แต่ความจริงกลับซับซ้อนกว่านั้นมาก

บั๊กในโครงสร้างพื้นฐานสามตัวแยกกันได้สร้างพายุแห่งปัญหาคุณภาพที่ส่งผลกระทบต่อผู้ใช้หลายล้านคนในแพลตฟอร์มต่างๆ ปัญหาเหล่านี้สร้างความสับสนเป็นพิเศษเพราะแสดงออกแตกต่างกันขึ้นอยู่กับแพลตฟอร์มฮาร์ดแวร์ที่ให้บริการแต่ละคำขอ ทำให้เกิดประสบการณ์ที่ไม่สม่ำเสมอและทำให้การวินิจฉัยเป็นไปได้ยากมาก

รายงานทางเทคนิคจาก Anthropic ที่อธิบายข้อบกพร่องที่ส่งผลกระทบต่อคุณภาพการตอบสนองของ Claude
รายงานทางเทคนิคจาก Anthropic ที่อธิบายข้อบกพร่องที่ส่งผลกระทบต่อคุณภาพการตอบสนองของ Claude

ความวุ่นวายในการกำหนดเส้นทางส่งผลกระทบหนักที่สุด

ปัญหาที่แพร่หลายที่สุดเกิดจากข้อผิดพลาดในการกำหนดเส้นทาง context window ที่เริ่มขึ้นเมื่อวันที่ 5 สิงหาคม คำขอ short-context ถูกส่งไปยังเซิร์ฟเวอร์ที่กำหนดค่าสำหรับ context ขนาด 200,000 โทเค็นที่ยาวกว่าโดยผิดพลาด ซึ่งในตอนแรกส่งผลกระทบต่อคำขอน้อยกว่า 1% อย่างไรก็ตาม การเปลี่ยนแปลง load balancing ตามปกติเมื่อวันที่ 29 สิงหาคมได้ทำให้สถานการณ์แย่ลงอย่างมาก โดยผลักดันอัตราข้อผิดพลาดให้เพิ่มขึ้นเป็นเกือบ 7% ของคำขอทั้งหมด

ผลกระทบรุนแรงเป็นพิเศษสำหรับผู้ใช้ Claude Code โดยประมาณ 30% ประสบปัญหาการตอบสนองที่ลดคุณภาพลงอย่างน้อยหนึ่งครั้ง ลักษณะ sticky ของระบบการกำหนดเส้นทางของ Anthropic ทำให้เรื่องแย่ลงไปอีก เมื่อคำขอของผู้ใช้ไปถึงเซิร์ฟเวอร์ที่ผิด ข้อความที่ตามมาก็มีแนวโน้มที่จะไปตามเส้นทางที่มีปัญหาเดียวกัน

การสนทนาในชุมชนเผยให้เห็นประสบการณ์ที่หลากหลาย โดยผู้ใช้องค์กรบางรายใน Vertex AI ของ Google Cloud รายงานปัญหาเพียงเล็กน้อย ในขณะที่คนอื่นๆ เผชิญกับการลดคุณภาพอย่างมีนัยสำคัญ ความแตกต่างในอัตราผลกระทบระหว่างแพลตฟอร์มต่างๆ อธิบายได้ว่าทำไมรายงานของผู้ใช้จึงดูขัดแย้งกันในระหว่างเหตุการณ์

สстатистิกผลกระทบจำแนกตามแพลตฟอร์ม:

  • ผู้ใช้ Claude Code : ประมาณ 30% ประสบปัญหาการตอบสนองที่มีคุณภาพลดลงอย่างน้อยหนึ่งครั้ง
  • AWS Trainium : สูงสุด 6.8% ของคำขอได้รับผลกระทบในช่วงที่เลวร้ายที่สุด
  • Google Cloud Vertex AI : น้อยกว่า 0.0005% ของคำขอได้รับผลกระทบ
  • Amazon Bedrock : สูงสุด 6.8% ของคำขอได้รับผลกระทบ

การสร้างโทเค็นเกิดความผิดปกติ

บั๊กแยกต่างหากที่เกิดขึ้นเมื่อวันที่ 16 สิงหาคมทำให้เกิดพฤติกรรมที่แปลกประหลาดยิ่งกว่า การปรับปรุงประสิทธิภาพที่กำหนดค่าผิดเริ่มกำหนดความน่าจะเป็นสูงให้กับโทเค็นที่ไม่เหมาะสมอย่างสิ้นเชิง ผู้ใช้ที่ถามคำถามเป็นภาษาอังกฤษอาจเห็นอักขระจีนปรากฏขึ้นกลางการตอบสนองอย่างกะทันหัน หรือได้รับโค้ดที่เต็มไปด้วยข้อผิดพลาดทางไวยากรณ์ที่ชัดเจน

การเสียหายของ output นี้ส่งผลกระทบต่อ Claude หลายรูปแบบระหว่างวันที่ 29 สิงหาคมถึง 2 กันยายน แต่จำกัดอยู่เพียงแพลตฟอร์มของ Anthropic เท่านั้น บั๊กนี้แสดงให้เห็นว่ากระบวนการเลือกโทเค็นซับซ้อนเพียงใด แม้ว่าโมเดล AI พื้นฐานจะยังคงไม่เปลี่ยนแปลง แต่การคำนวณความน่าจะเป็นที่ผิดพลาดสามารถทำให้การตอบสนองเสียหายได้โดยสิ้นเชิง

ไทม์ไลน์ของปัญหาต่างๆ:

  • 5 สิงหาคม: เกิดบั๊กในการกำหนดเส้นทาง context window (ส่งผลกระทบ 0.8%)
  • 16 สิงหาคม: บั๊กที่ทำให้ผลลัพธ์เสียหายถูกนำไปใช้กับ TPU kernels
  • 28 สิงหาคม: บั๊กของ XLA compiler ถูกเปิดเผยจากการปรับปรุงการเลือก token
  • 29 สิงหาคม: การเปลี่ยนแปลง load balancing ทำให้ปัญหาการกำหนดเส้นทางแย่ลงเป็น 6.8%
  • 2 กันยายน: บั๊กที่ทำให้ผลลัพธ์เสียหายถูกยกเลิก
  • 4-5 กันยายน: การแก้ไขปัญหา context routing ถูกนำไปใช้ทั่วทุกแพลตฟอร์ม
  • 12 กันยายน: วิธีแก้ไขชั่วคราวของ XLA compiler ถูกยกเลิกอย่างสมบูรณ์

บั๊กคอมไพเลอร์สร้างปัญหาที่มองไม่เห็น

ปัญหาที่ซับซ้อนที่สุดทางเทคนิคเกี่ยวข้องกับบั๊กแฝงใน XLA compiler ของ Google สำหรับชิป TPU เมื่อ Anthropic ปรับใช้โค้ดการเลือกโทเค็นที่ปรับปรุงแล้วเมื่อวันที่ 28 สิงหาคม มันได้เปิดเผยข้อบกพร่องของคอมไพเลอร์ที่ซ่อนอยู่นี้โดยไม่ได้ตั้งใจ บั๊กทำให้ระบบบางครั้งตัดโทเค็นที่มีความน่าจะเป็นสูงสุดออกจากการพิจารณาโดยสิ้นเชิง ส่งผลให้เกิดการเลือกคำที่ไร้สาระ

ปัญหาคอมไพเลอร์นี้พิสูจน์ให้เห็นว่าเป็นเรื่องยุ่งยากเป็นพิเศษเพราะพฤติกรรมของมันเปลี่ยนแปลงตามปัจจัยที่ดูเหมือนไม่เกี่ยวข้อง เช่น ขนาด batch และการตั้งค่าการดีบั๊ก prompt เดียวกันอาจทำงานได้อย่างสมบูรณ์แบบในช่วงหนึ่งและล้มเหลวในช่วงถัดไป ทำให้การทำซ้ำเป็นไปไม่ได้เกือบจะเลย

โครงสร้างพื้นฐานทางเทคนิค:

  • แพลตฟอร์มฮาร์ดแวร์: AWS Trainium , NVIDIA GPUs , Google TPUs
  • การกระจาย: First-party API , Amazon Bedrock , Google Cloud Vertex AI
  • หน้าต่างบริบท: การกำหนดค่าแบบมาตรฐานและแบบ 200,000 โทเค็น
  • การเลือกโทเค็น: การสุ่มตัวอย่าง Top-k ด้วยอัลกอริทึมแบบประมาณและแบบแม่นยำ

ความท้าทายในการตรวจจับเน้นย้ำปัญหาทั่วทั้งอุตสาหกรรม

การต่อสู้ของ Anthropic ในการระบุปัญหาเหล่านี้อย่างรวดเร็วเผยให้เห็นความท้าทายที่กว้างขึ้นในการตรวจสอบระบบ AI มาตรฐานแบบดั้งเดิมล้มเหลวในการตรวจจับการลดคุณภาพที่ผู้ใช้ประสบในการใช้งานจริง การควบคุมความเป็นส่วนตัวที่จำกัดการเข้าถึงของวิศวกรต่อการโต้ตอบของผู้ใช้ แม้ว่าจะปกป้องข้อมูลผู้ใช้ แต่ก็ทำให้ความพยายามในการดีบั๊กช้าลงด้วย

กฎความเป็นส่วนตัว/ความปลอดภัยจำกัดการเข้าถึงข้อมูลผู้ใช้จริงสำหรับการดีบั๊ก

การพึ่งพาการประเมินอัตโนมัติของบริษัทพิสูจน์ให้เห็นว่าไม่เพียงพอเมื่อบั๊กสร้างปัญหาที่ละเอียดอ่อนและเป็นช่วงๆ แทนที่จะเป็นความล้มเหลวที่ชัดเจน ช่องว่างในการตรวจจับนี้กินเวลาหลายสัปดาห์ ในระหว่างนั้นความหงุดหงิดของผู้ใช้เพิ่มขึ้นและทฤษฎีสมคบคิดเกี่ยวกับการลดคุณภาพโดยเจตนาแพร่กระจายไปทั่วโซเชียลมีเดีย

ก้าวไปข้างหน้าด้วยการตรวจสอบที่ดีขึ้น

Anthropic กำลังดำเนินการประเมินคุณภาพอย่างต่อเนื่องในระบบการผลิตและพัฒนาเครื่องมือใหม่เพื่อวิเคราะห์ความคิดเห็นของผู้ใช้โดยไม่กระทบต่อความเป็นส่วนตัว บริษัทเน้นย้ำว่ารายงานของผู้ใช้ยังคงมีความสำคัญอย่างยิ่งในการระบุปัญหาที่ระบบอัตโนมัติอาจพลาดไป

เหตุการณ์นี้เป็นการเตือนใจว่าแม้แต่ระบบ AI ที่ซับซ้อนก็ยังขึ้นอยู่กับโครงสร้างพื้นฐานที่ซับซ้อนซึ่งอาจล้มเหลวในรูปแบบที่ไม่คาดคิด ในขณะที่การแก้ไขทางเทคนิคได้ดำเนินการแล้ว การทดสอบที่แท้จริงจะเป็นการดูว่าการตรวจสอบที่ปรับปรุงแล้วของ Anthropic สามารถตรวจจับปัญหาที่คล้ายกันได้หรือไม่ก่อนที่จะส่งผลกระทบต่อผู้ใช้ในวงกว้าง

อ้างอิง: A postmortem of three recent issues