การสนทนาแบบยาวของ ChatGPT เผยปัญหาสำคัญด้านหน่วยความจำและความแม่นยำในงานที่ซับซ้อน

ทีมบรรณาธิการ BigGo

การสนทนาแบบยาวของ ChatGPT เผยปัญหาสำคัญด้านหน่วยความจำและความแม่นยำในงานที่ซับซ้อน

เมื่อปัญญาประดิษฐ์เข้ามามีบทบาทมากขึ้นในขั้นตอนการทำงานระดับมืออาชีพ ผู้ใช้งานเริ่มค้นพบข้อจำกัดที่สำคัญเมื่อใช้เครื่องมือเหล่านี้เกินกว่าการสอบถามง่าย ๆ การทดสอบอย่างละเอียดล่าสุดของ ChatGPT จาก OpenAI เผยให้เห็นรูปแบบที่น่าวิตกของข้อผิดพลาดและการสูญเสียหน่วยความจำที่เกิดขึ้นระหว่างการสนทนาที่ซับซ้อนและมีหลายขั้นตอน ทำให้เกิดคำถามเกี่ยวกับความน่าเชื่อถือของผู้ช่วย AI สำหรับงานที่ต้องการรายละเอียด

การเสื่อมสภาพของหน่วยความจำในเซสชันที่ยาวนาน

ปัญหาที่น่าวิตกที่สุดดูเหมือนจะเป็นการที่ ChatGPT ไม่สามารถรักษาความสอดคล้องตลอดการสนทนาที่ยาวนาน ระหว่างการฝึกวางแผนธุรกิจที่เกี่ยวข้องกับการสร้างแบบจำลองทางการเงินและการสร้างสเปรดชีต AI ลืมข้อสมมติฐานพื้นฐานที่ได้กำหนดไว้ก่อนหน้านี้ในเซสชันซ้ำ ๆ ในกรณีที่มีการบันทึกไว้กรณีหนึ่ง ChatGPT ลืมพารามิเตอร์เริ่มต้นพื้นฐาน ซึ่งคือเริ่มต้นด้วยผู้สมัครสมาชิก 250 คนแทนที่จะเป็นศูนย์ ซึ่งส่งผลกระทบต่อเนื่องไปยังข้อผิดพลาดในการคำนวณหลายครั้งตลอดการคาดการณ์ทางการเงิน

การเสื่อมสภาพของหน่วยความจำนี้ไม่ได้จำกัดอยู่แค่ตัวเลข AI จะอ้างอิงตัวเลขอย่างมั่นใจที่ขัดแย้งโดยตรงกับข้อมูลในตารางที่มันสร้างขึ้นเมื่อสักครู่ก่อน จากนั้นจึงยอมรับข้อผิดพลาดเหล่านี้ด้วยการตอบสนองแบบสบาย ๆ เช่น ผิดพลาดของฉัน โดยไม่ให้คำอธิบายใด ๆ สำหรับความไม่สอดคล้องนี้ พฤติกรรมดังกล่าวแสดงให้เห็นว่าหน้าต่างบริบทของ ChatGPT ซึ่งควรจะช่วยให้มันอ้างอิงส่วนก่อนหน้าของการสนทนาได้ ไม่ทำงานอย่างน่าเชื่อถือในสถานการณ์ที่ซับซ้อน

ข้อผิดพลาดในการคำนวณสะสมเมื่อเวลาผ่านไป

การสร้างแบบจำลองทางการเงินเผยให้เห็นรูปแบบของความผิดพลาดที่เกิดขึ้นบ่อยขึ้นเมื่อการสนทนาดำเนินไป ChatGPT ทำข้อผิดพลาดในการคำนวณพื้นฐานรวมถึง การใช้ราคาสมาชิกผิด (นำไปสู่การคำนวณรายได้ที่ไม่ถูกต้อง), การคำนวณจุดคุ้มทุนผิด, การสร้างแผนภูมิที่มีตัวเลขที่แตกต่างอย่างมากจากข้อสมมติฐานที่ตกลงกัน, และการสร้างตารางที่ขาดค่าสำคัญ AI ยังลืมอัตราส่วนลดที่ตกลงกันและใช้ค่าที่แตกต่างแทนโดยไม่แจ้งให้ทราบ

เหล่านี้ไม่ใช่เหตุการณ์ที่เกิดขึ้นเป็นครั้งคราว แต่เป็นส่วนหนึ่งของการล่มสลายอย่างเป็นระบบที่ต้องการความระมัดระวังอย่างต่อเนื่องจากผู้ใช้ สิ่งที่เริ่มต้นเป็นเซสชันการวางแผนแบบร่วมมือกลายเป็นการฝึกตรวจสอบข้อเท็จจริงที่น่าเหนื่อยหน่าย โดยผู้ใช้ใช้เวลาอย่างมากในการแก้ไขข้อผิดพลาดที่ไม่ควรเกิดขึ้นตั้งแต่แรก

ข้อผิดพลาดทั่วไปของ ChatGPT ในเซสชันที่ยาวนาน

ประเภทข้อผิดพลาด	คำอธิบาย	ผลกระทบ
การสูญเสียความจำ	ลืมข้อสมมติฐานที่กำหนดไว้ (เช่น จำนวนผู้สมัครสมาชิกเริ่มต้น)	ข้อผิดพลาดในการคำนวณที่ส่งผลต่อเนื่อง
ข้อผิดพลาดในการคำนวณ	ราคาการสมัครสมาชิกผิด จุดคุ้มทุนผิด	การคาดการณ์ทางการเงินที่ไม่ถูกต้อง
ข้อมูลไม่สอดคล้องกัน	อ้างอิงตัวเลขที่ขัดแย้งกับตารางที่สร้างขึ้นเอง	การวิเคราะห์ที่ไม่น่าเชื่อถือ
ค่าที่ขาดหายไป	ตารางที่ขาดค่าสำคัญ	โมเดลธุรกิจที่ไม่สมบูรณ์
ความสับสนในพารามิเตอร์	เปลี่ยนอัตราส่วนลดที่แตกต่างกันโดยไม่แจ้งให้ทราบ	การประเมินมูลค่าที่ไม่แม่นยำ

นอกเหนือจากการใช้งานทางธุรกิจ

ปัญหาความน่าเชื่อถือขยายไปไกลกว่าการคำนวณทางการเงิน ปัญหาที่คล้ายกันเกิดขึ้นในงานที่ซับซ้อนอื่น ๆ เช่น การแปลเอกสารและการวิเคราะห์เนื้อหา เมื่อประมวลผลหนังสือกวีในรูปแบบ PDF, ChatGPT ไม่เพียงแต่ทำข้อผิดพลาดในการดึงข้อความเท่านั้น แต่ยังละเว้นส่วนทั้งหมดของบทกวีและแทรกบทกวีที่แต่งขึ้นมาเองซึ่งไม่มีในงานต้นฉบับ สิ่งนี้แสดงให้เห็นว่าปัญหาทางเทคนิคพื้นฐานส่งผลต่อการประมวลผลเนื้อหาประเภทต่าง ๆ

ความขัดแย้งของผลิตภาพ

แม้จะมีข้อบกพร่องที่สำคัญเหล่านี้ ChatGPT ก็ยังให้คุณค่าอย่างมากสำหรับโครงการที่ซับซ้อน AI สามารถให้สมการที่มีประโยชน์ ข้อมูลพื้นหลัง และรักษาความสอดคล้องของธีมตลอดการอภิปราย ซึ่งเป็นความสามารถที่แสดงถึงความก้าวหน้าครั้งสำคัญเหนือเทคโนโลยีแชทบอทรุ่นก่อน ผู้ใช้รายงานว่าโครงการสามารถเสร็จสิ้นได้ในเวลาประมาณครึ่งหนึ่งเมื่อเทียบกับการทำงานคนเดียว แต่เวลาที่ประหยัดได้ส่วนใหญ่ถูกใช้ไปกับการแก้ไขข้อผิดพลาดและการตรวจสอบ

สิ่งนี้สร้างสิ่งที่ผู้ใช้คนหนึ่งอธิบายว่าเป็นความขัดแย้งของผลิตภาพ ซึ่งคือประหยัดเวลาได้ครึ่งหนึ่งตามที่คาดหวัง แต่สูญเสียอีกหนึ่งในสี่ไปกับการแก้ไขข้อผิดพลาดที่ AI สร้างขึ้น ผลประโยชน์สุทธิมีอยู่จริง แต่มาพร้อมกับต้นทุนที่ซ่อนอยู่ของการเฝ้าระวังอย่างต่อเนื่องและความเครียดจากการไม่รู้ว่าข้อผิดพลาดครั้งต่อไปจะเกิดขึ้นเมื่อไหร่

การวิเคราะห์ผลกระทบต่อประสิทธิภาพการทำงาน

เวลาที่ประหยัดได้: ลดเวลาในการทำโครงการเบื้องต้นให้เสร็จสิ้นลงได้ประมาณ 50%
เวลาที่สูญเสีย: ใช้เวลา 25% ของเวลาที่ประหยัดได้ไปกับการแก้ไขข้อผิดพลาดและการตรวจสอบ
ผลประโยชน์สุทธิ: ประหยัดเวลาโดยรวม 25% แต่มาพร้อมกับความเครียดเพิ่มเติมจากการต้องติดตามอย่างต่อเนื่อง
ประสิทธิภาพที่ดีที่สุด: การสนทนาแบบสั้นๆ กับคำถามที่เรียบง่าย
ประสิทธิภาพที่แย่ที่สุด: เซสชันแบบยาวที่มีตัแปรและข้อสมมติหลายอย่าง

โซลูชันทางเทคนิคและข้อจำกัดปัจจุบัน

OpenAI ยอมรับข้อจำกัดเหล่านี้ โดยระบุว่า ChatGPT ทำงานได้ดีที่สุดในการสนทนาแบบสั้น ๆ และบริษัทกำลังปรับปรุงความน่าเชื่อถือในการสนทนาที่ยาวขึ้นอย่างต่อเนื่อง สาเหตุทางเทคนิคดูเหมือนจะเป็นเพราะโมเดลภาษาขนาดใหญ่ทำงานเป็นฐานข้อมูลที่ไม่เรียบร้อยที่สามารถสูญเสียหรือแทนที่ข้อมูลสำคัญโดยไม่มีการเตือน

โซลูชันระดับองค์กรเช่น Retrieval-Augmented Generation (RAG) สามารถช่วยได้โดยการจัดเก็บตัวแปรสำคัญในฐานข้อมูลแยกต่างหาก เพื่อให้แน่ใจว่าจะยังคงเสถียรเว้นแต่จะมีการเปลี่ยนแปลงอย่างชัดเจน อย่างไรก็ตาม ผู้ใช้รายบุคคลส่วนใหญ่ไม่มีการเข้าถึงโครงสร้างพื้นฐานดังกล่าว ทำให้การตรวจสอบด้วยตนเองเป็นการป้องกันเพียงอย่างเดียวต่อข้อผิดพลาดของ AI

ฟีเจอร์เสียงเพิ่มความซับซ้อนอีกชั้นหนึ่ง

การทดสอบแยกต่างหากของฟีเจอร์เสียงของ ChatGPT เผยให้เห็นความท้าทายด้านการใช้งานเพิ่มเติม แม้ว่าฟังก์ชันแฮนด์ฟรีจะทำงานได้ดีสำหรับงานง่าย ๆ เช่น การแนะนำสูตรอาหารหรือสรุปข่าว แต่ผู้ใช้หลายคนพบว่าเสียง AI เรียบเนียนและเทียมเกินไป การส่งมอบที่เรียบเนียนเกินไปสร้างเอฟเฟกต์ uncanny valley ที่ทำให้การโต้ตอบรู้สึกไม่เป็นธรรมชาติตามที่ตั้งใจไว้

ในทางปฏิบัติมากกว่านั้น การโต้ตอบด้วยเสียงบังคับให้ผู้ใช้รับข้อมูลตามจังหวะของ AI แทนที่จะสแกนข้อความอย่างรวดเร็วเพื่อหารายละเอียดที่เกี่ยวข้อง ข้อจำกัดด้านความเร็วนี้ส่งผลต่อผู้ใช้ระดับสูงโดยเฉพาะที่พึ่งพาการประมวลผลข้อมูลอย่างรวดเร็วสำหรับขั้นตอนการทำงานของพวกเขา

ตัวเลือกเสียงของ ChatGPT และประสบการณ์ผู้ใช้

ชื่อเสียง	ลักษณะเด่น	ความคิดเห็นของผู้ใช้
Cove	เสียงที่ผ่อนคลายและให้ความมั่นใจ	เรียบเกินไป ขาดความไม่สมบูรณ์แบบตามธรรมชาติ
Maple	เสียงสดใสและมีพลัง	ระดับพลังงานไม่สม่ำเสมอ
Ember	เสียงที่สมดุล	ยังคงรู้สึกเทียม
Sol	ตัวเลือกมาตรฐาน	ได้รับความนิยมน้อยที่สุดจากผู้ใช้ขั้นสูง

ปัญหาทั่วไป: การพูดที่เรียบเกินไป การหยุดพักที่ไม่เป็นธรรมชาติ ข้อจำกัดในการควบคุมจังหวะสำหรับการประมวลผลข้อมูลอย่างรวดเร็ว

ผลกระทบต่อการยอมรับ AI

การค้นพบเหล่านี้เน้นให้เห็นช่องว่างที่สำคัญระหว่างคำสัญญาทางการตลาดของ AI และประสิทธิภาพในโลกแห่งความเป็นจริง ในขณะที่ ChatGPT เก่งในการสร้างร่างเริ่มต้นและให้แรงบันดาลใจเชิงสร้างสรรค์ ความน่าเชื่อถือของมันลดลงอย่างมากในสถานการณ์ที่ต้องการความแม่นยำและความใส่ใจในรายละเอียดอย่างต่อเนื่อง ผู้ใช้ต้องชั่งน้ำหนักระหว่างการประหยัดเวลากับภาระทางจิตใจของการตรวจสอบข้อผิดพลาดอย่างต่อเนื่อง

สถานะปัจจุบันของเทคโนโลยี AI แสดงให้เห็นว่าการดูแลของมนุษย์ยังคงเป็นสิ่งจำเป็นสำหรับงานที่สำคัญใด ๆ แทนที่จะแทนที่การตัดสินใจของมนุษย์ เครื่องมือเหล่านี้ควรมองว่าเป็นผู้ช่วยที่ทรงพลังแต่ไม่สมบูรณ์แบบที่ต้องการการจัดการอย่างระมัดระวังเพื่อให้ได้ประโยชน์ตามที่สัญญาไว้

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌