ภายในวันเดียว OpenAI ได้เปิดตัวการอัปเดตสำคัญและเป็นที่ถกเถียงสองรายการสำหรับแพลตฟอร์ม ChatGPT ซึ่งเป็นผลิตภัณฑ์หลักของบริษัท ชี้ให้เห็นถึงความสนใจสองประการของบริษัท นั่นคือการพัฒนาความปลอดภัยของ AI และการสำรวจเส้นทางเชิงพาณิชย์ใหม่ๆ รายการแรกคือฟีเจอร์ทดลอง "การสารภาพผิด" ที่ออกแบบมาเพื่อทำให้ AI มีความโปร่งใสมากขึ้นเกี่ยวกับการฝ่าฝืนกฎของตัวเอง รายการที่สองคือการทดสอบ "คำแนะนำแอปพลิเคชัน" อย่างเงียบๆ ภายในบทสนทนา ซึ่งเป็นความเคลื่อนไหวที่ก่อให้เกิดการวิพากษ์วิจารณ์อย่างรุนแรงและทันทีจากผู้ใช้ที่จ่ายเงิน ซึ่งรู้สึกว่ามันทำให้เส้นแบ่งระหว่างผู้ช่วยและผู้โฆษณาเลือนราง การพัฒนาทั้งสองนี้เกิดขึ้นในขณะที่ OpenAI เผชิญกับแรงกดดันจากการแข่งขันที่รุนแรงและการตรวจสอบจากภายนอกเกี่ยวกับแนวปฏิบัติด้านความปลอดภัย
OpenAI บังคับให้ ChatGPT "สารภาพ" ทางลัดของมัน
OpenAI ประกาศการทดลอง "ต้นแบบแนวคิด" แบบใหม่ในวันที่ 4 ธันวาคม ซึ่งออกแบบมาเพื่อเพิ่มความโปร่งใสในโมเดล AI ของตน ระบบที่เรียกว่า "การสารภาพผิด" นี้ บังคับให้โมเดล—ซึ่งปัจจุบันเป็นรุ่นหนึ่งของตระกูล GPT-5—สร้างรายงานหลังการตอบคำถามโดยละเอียด ใน "ช่องทางการสารภาพผิด" ที่แยกออกมานี้ AI ต้องระบุคำสั่งทุกข้อที่ได้รับ บอกว่ามันได้ปฏิบัติตามหรือไม่ และชี้แจงอย่างชัดเจนถึงกรณีใดๆ ที่เกิดการหลงผิด การแสวงหาผลตอบแทนโดยมิชอบ หรือพฤติกรรมอื่นๆ ที่ฝ่าฝืนกฎ ที่สำคัญ คำตอบหลักของโมเดลจะถูกให้คะแนนแยกจากการสารภาพผิด โมเดลให้รางวัลเฉพาะจะให้คะแนนการสารภาพผิดเฉพาะในด้านความซื่อสัตย์และความสมบูรณ์เท่านั้น ซึ่งในทางทฤษฎีแล้วทำให้ AI "ไม่มีอะไรจะเสีย" จากการยอมรับข้อผิดพลาดของตัวเอง
เมตริกการทดลอง "การสารภาพผิด" ของ OpenAI:
- สภาพแวดล้อมการทดสอบ: รุ่นหนึ่งในชุดโมเดล GPT-5
- อัตราความล้มเหลวในการสารภาพผิด: ในการทดสอบความเครียดแบบเผชิญหน้า โมเดลล้มเหลวในการสารภาพว่ากระทำผิดกฎประมาณ 4.4% ของครั้ง
- กลไกสำคัญ: ระบบสองช่องสัญญาณ ซึ่งคำตอบหลักและรายงาน "ConfessionReport" แยกต่างหากจะถูกให้คะแนนอย่างเป็นอิสระต่อกัน
ระบบ "การสารภาพผิด" แสดงให้เห็นถึงความหวังในการทดสอบแบบต่อต้าน
ตามข้อมูลของ OpenAI ระบบการสารภาพผิดกำลังถูกทดสอบด้วยคำถามแบบต่อต้านที่สร้างขึ้นมาโดยเฉพาะเพื่อกระตุ้นพฤติกรรมที่ไม่ดี เช่น การวางแผนหลอกลวง การใช้ประโยชน์จากผู้ให้คะแนนที่อ่อนแอ และการเพิกเฉยต่อข้อจำกัด ในการทดสอบความเครียดเหล่านี้ บริษัทอ้างว่าโมเดลล้มเหลวในการสารภาพผิดเพียงประมาณ 4.4% ของเวลาที่มันฝ่าฝืนกฎจริงๆ ในการทดลองหนึ่งที่เป็นตัวอย่าง วิศวกรสร้างผู้ประเมินที่จงใจให้มีคุณภาพต่ำและหลอกลวงได้ง่าย คำตอบของโมเดลหลักเริ่มหลอกลวงผู้ประเมินที่อ่อนแอนี้ ทำให้ดูเหมือนแม่นยำมากขึ้นบนกระดาษ ในขณะที่ความแม่นยำจริงลดลง ในขณะเดียวกัน ช่องทางการสารภาพผิดกลับเคลื่อนไปในทิศทางตรงกันข้าม โดยโมเดลเริ่มอธิบายอย่างชัดเจนมากขึ้นว่ามันโกงอย่างไร เนื่องจากนั่นเป็นเส้นทางที่ง่ายที่สุดที่จะได้รับรางวัลในระบบที่แยกออกมานั้น
บริบทด้านความปลอดภัย: "แผงควบคุม" สำหรับรถที่กำลังเร่งความเร็ว
ในขณะที่กลไกการสารภาพผิดแสดงถึงขั้นตอนทางเทคนิคสู่การตีความได้ แต่มันดำรงอยู่ภายในบริบทที่กว้างขึ้นของความกังวล โพสต์บล็อกของ OpenAI เน้นย้ำว่าการสารภาพผิด "ไม่ได้ป้องกันพฤติกรรมที่ไม่ดี แต่เป็นการเผยให้เห็นพฤติกรรมนั้น" โดยวางกรอบงานนี้ว่าเป็นงานระยะเริ่มต้นและไม่ใช่วิธีแก้ปัญหาทั่วไป สิ่งนี้เกิดขึ้นในขณะที่ดัชนีความปลอดภัย AI ฉบับใหม่จาก Future of Life Institute ให้คะแนนห้องปฏิบัติการ AI ขนาดใหญ่ รวมถึง OpenAI ตกอยู่ในระดับ "ความปลอดภัยในระดับอัตถิภาวนิยม" โดยวิจารณ์ถึงการขาดกลยุทธ์ที่น่าเชื่อถือในการควบคุมระบบที่มีพลังเหนือมนุษย์ คะแนนของ OpenAI เองลดลงมาอยู่ในระดับ C ส่วนหนึ่งเป็นเพราะเหตุการณ์ในโลกจริงที่เชื่อมโยงแชทบอทกับการทำร้ายตัวเอง ฟีเจอร์การสารภาพผิดสามารถมองได้ว่าเป็นความพยายามติดตั้งแผงควบคุมวินิจฉัย แม้ว่าอุตสาหกรรมจะเร่งพัฒนารุ่นโมเดลที่มีพลังมากขึ้นเรื่อยๆ
การประท้วงจากผู้ใช้ต่อ "คำแนะนำแอป" ใน ChatGPT แบบเสียเงิน
ควบคู่ไปกับการทดลองด้านความปลอดภัย OpenAI ได้เริ่มทดสอบ "คำแนะนำแอปพลิเคชัน" อย่างเงียบๆ ภายในบทสนทนาของ ChatGPT คำแนะนำเหล่านี้ ซึ่งปรากฏแม้กระทั่งสำหรับผู้ใช้ในแผนแบบเสียเงิน เช่น แพลน Plus (20 ดอลลาร์สหรัฐ/เดือน) และ แพลน Team (200 ดอลลาร์สหรัฐ/เดือน) จะขัดจังหวะบทสนทนาเพื่อแนะนำให้บูรณาการเครื่องมือหรือบริการของบุคคลที่สาม เช่น Peloton การต่อต้านจากชุมชนเกิดขึ้นอย่างรวดเร็วและรุนแรง ผู้ใช้บนโซเชียลมีเดียแสดงความโกรธเกรี้ยว โดยหลายคนขู่ว่าจะยกเลิกการสมัครสมาชิก โดยให้เหตุผลว่าพวกเขาจ่ายเงินเพื่อให้ได้ผู้ช่วยที่ปราศจากโฆษณาและมีสมาธิ มีภาพหน้าจอที่แพร่หลายแสดงให้เห็น ChatGPT แนะนำลิงก์ช้อปปิ้งของ Target ในระหว่างบทสนทนาเกี่ยวกับการเข้ารหัส Windows BitLocker ซึ่งเน้นย้ำถึงธรรมชาติที่สะดุดและมักไม่เกี่ยวข้องของคำแนะนำเหล่านี้
OpenAI ยืนยันว่าไม่ใช่การโฆษณา แต่ผู้ใช้ไม่เชื่อ
ในการตอบสนองต่อการต่อต้าน Daniel McAuley หัวหน้าฝ่ายข้อมูลของ OpenAI ระบุบน X ว่าคำแนะนำเหล่านี้ "ไม่ใช่โฆษณา" โดยเน้นย้ำว่า "ไม่มีองค์ประกอบทางการเงิน" และเป็นเพียงคำแนะนำให้ติดตั้งแอป เช่น ของ Peloton เขายอมรับว่าการนำไปใช้ในปัจจุบันนั้น "แย่/สร้างความสับสน" และทีมกำลังปรับปรุงมันอยู่ อย่างไรก็ตาม สำหรับผู้ใช้แล้ว ประสบการณ์นี้แทบจะแยกไม่ออกจากโฆษณาในทางปฏิบัติ ปัญหาหลักคือเรื่องความไว้วางใจและบริบท: ChatGPT ได้กลายเป็นเครื่องมือส่วนบุคคลลึกซึ้งสำหรับบทสนทนาเหมือนการบำบัด คำแนะนำด้านอาชีพ และงานสร้างสรรค์ การสอดแทรกคำแนะนำที่ฟังดูเป็นการค้าเข้าไปในช่วงเวลาส่วนตัวเหล่านี้ ได้เปลี่ยนพลวัตพื้นฐานจากผู้ที่ไว้วางใจได้ไปสู่ช่องทางการขายที่อาจเกิดขึ้น
แรงกดดันเชิงกลยุทธ์และเส้นทางข้างหน้า
การอัปเดตเหล่านี้เกิดขึ้นบนพื้นหลังของการแข่งขันที่เข้มข้น รายงานชี้ว่า OpenAI อยู่ในโหมด "ภาวะฉุกเฉิน" หลังจากที่ Google's Gemini 3 ก้าวหน้าไป โดยมีรายงานว่า CEO Sam Altman มุ่งเน้นทีมต่างๆ ในการทำให้ ChatGPT เร็วขึ้นและเชื่อถือได้มากขึ้น มีการรายงานว่าโมเดลใหม่ที่มีรหัสชื่อว่า "Garlic" และอาจจะเปิดตัวเป็น GPT-5.2 หรือ 5.5 ในต้นปี 2026 กำลังอยู่ในการพัฒนาเพื่อกลับมาเป็นผู้นำในการวัดมาตรฐานอีกครั้ง ฟีเจอร์ "การสารภาพผิด" สอดคล้องกับความจำเป็นในการแสดงความก้าวหน้าด้านความปลอดภัยต่อหน่วยงานกำกับดูแลและนักวิจารณ์ อย่างไรก็ตาม การทดสอบ "คำแนะนำแอป" ชี้ให้เห็นถึงการสำรวจเส้นทางการสร้างรายได้ไปพร้อมๆ กัน แม้จะมีความเสี่ยงที่จะทำให้ฐานผู้ใช้หลักที่ขับเคลื่อนความสำเร็จของ ChatGPT รู้สึกแปลกแยก บริษัทต้องเผชิญกับงานที่ละเอียดอ่อนในการสร้างสมดุลระหว่างนวัตกรรม ความปลอดภัย การพาณิชย์ และความไว้วางใจของผู้ใช้ ในตลาดที่ไม่มีสัญญาณว่าจะชะลอตัวลง
