เมื่อปัญญาประดิษฐ์เข้ามามีบทบาทมากขึ้นในขั้นตอนการทำงานระดับมืออาชีพ ผู้ใช้งานเริ่มค้นพบข้อจำกัดที่สำคัญเมื่อใช้เครื่องมือเหล่านี้เกินกว่าการสอบถามง่าย ๆ การทดสอบอย่างละเอียดล่าสุดของ ChatGPT จาก OpenAI เผยให้เห็นรูปแบบที่น่าวิตกของข้อผิดพลาดและการสูญเสียหน่วยความจำที่เกิดขึ้นระหว่างการสนทนาที่ซับซ้อนและมีหลายขั้นตอน ทำให้เกิดคำถามเกี่ยวกับความน่าเชื่อถือของผู้ช่วย AI สำหรับงานที่ต้องการรายละเอียด
การเสื่อมสภาพของหน่วยความจำในเซสชันที่ยาวนาน
ปัญหาที่น่าวิตกที่สุดดูเหมือนจะเป็นการที่ ChatGPT ไม่สามารถรักษาความสอดคล้องตลอดการสนทนาที่ยาวนาน ระหว่างการฝึกวางแผนธุรกิจที่เกี่ยวข้องกับการสร้างแบบจำลองทางการเงินและการสร้างสเปรดชีต AI ลืมข้อสมมติฐานพื้นฐานที่ได้กำหนดไว้ก่อนหน้านี้ในเซสชันซ้ำ ๆ ในกรณีที่มีการบันทึกไว้กรณีหนึ่ง ChatGPT ลืมพารามิเตอร์เริ่มต้นพื้นฐาน ซึ่งคือเริ่มต้นด้วยผู้สมัครสมาชิก 250 คนแทนที่จะเป็นศูนย์ ซึ่งส่งผลกระทบต่อเนื่องไปยังข้อผิดพลาดในการคำนวณหลายครั้งตลอดการคาดการณ์ทางการเงิน
การเสื่อมสภาพของหน่วยความจำนี้ไม่ได้จำกัดอยู่แค่ตัวเลข AI จะอ้างอิงตัวเลขอย่างมั่นใจที่ขัดแย้งโดยตรงกับข้อมูลในตารางที่มันสร้างขึ้นเมื่อสักครู่ก่อน จากนั้นจึงยอมรับข้อผิดพลาดเหล่านี้ด้วยการตอบสนองแบบสบาย ๆ เช่น ผิดพลาดของฉัน โดยไม่ให้คำอธิบายใด ๆ สำหรับความไม่สอดคล้องนี้ พฤติกรรมดังกล่าวแสดงให้เห็นว่าหน้าต่างบริบทของ ChatGPT ซึ่งควรจะช่วยให้มันอ้างอิงส่วนก่อนหน้าของการสนทนาได้ ไม่ทำงานอย่างน่าเชื่อถือในสถานการณ์ที่ซับซ้อน
ข้อผิดพลาดในการคำนวณสะสมเมื่อเวลาผ่านไป
การสร้างแบบจำลองทางการเงินเผยให้เห็นรูปแบบของความผิดพลาดที่เกิดขึ้นบ่อยขึ้นเมื่อการสนทนาดำเนินไป ChatGPT ทำข้อผิดพลาดในการคำนวณพื้นฐานรวมถึง การใช้ราคาสมาชิกผิด (นำไปสู่การคำนวณรายได้ที่ไม่ถูกต้อง), การคำนวณจุดคุ้มทุนผิด, การสร้างแผนภูมิที่มีตัวเลขที่แตกต่างอย่างมากจากข้อสมมติฐานที่ตกลงกัน, และการสร้างตารางที่ขาดค่าสำคัญ AI ยังลืมอัตราส่วนลดที่ตกลงกันและใช้ค่าที่แตกต่างแทนโดยไม่แจ้งให้ทราบ
เหล่านี้ไม่ใช่เหตุการณ์ที่เกิดขึ้นเป็นครั้งคราว แต่เป็นส่วนหนึ่งของการล่มสลายอย่างเป็นระบบที่ต้องการความระมัดระวังอย่างต่อเนื่องจากผู้ใช้ สิ่งที่เริ่มต้นเป็นเซสชันการวางแผนแบบร่วมมือกลายเป็นการฝึกตรวจสอบข้อเท็จจริงที่น่าเหนื่อยหน่าย โดยผู้ใช้ใช้เวลาอย่างมากในการแก้ไขข้อผิดพลาดที่ไม่ควรเกิดขึ้นตั้งแต่แรก
ข้อผิดพลาดทั่วไปของ ChatGPT ในเซสชันที่ยาวนาน
ประเภทข้อผิดพลาด | คำอธิบาย | ผลกระทบ |
---|---|---|
การสูญเสียความจำ | ลืมข้อสมมติฐานที่กำหนดไว้ (เช่น จำนวนผู้สมัครสมาชิกเริ่มต้น) | ข้อผิดพลาดในการคำนวณที่ส่งผลต่อเนื่อง |
ข้อผิดพลาดในการคำนวณ | ราคาการสมัครสมาชิกผิด จุดคุ้มทุนผิด | การคาดการณ์ทางการเงินที่ไม่ถูกต้อง |
ข้อมูลไม่สอดคล้องกัน | อ้างอิงตัวเลขที่ขัดแย้งกับตารางที่สร้างขึ้นเอง | การวิเคราะห์ที่ไม่น่าเชื่อถือ |
ค่าที่ขาดหายไป | ตารางที่ขาดค่าสำคัญ | โมเดลธุรกิจที่ไม่สมบูรณ์ |
ความสับสนในพารามิเตอร์ | เปลี่ยนอัตราส่วนลดที่แตกต่างกันโดยไม่แจ้งให้ทราบ | การประเมินมูลค่าที่ไม่แม่นยำ |
นอกเหนือจากการใช้งานทางธุรกิจ
ปัญหาความน่าเชื่อถือขยายไปไกลกว่าการคำนวณทางการเงิน ปัญหาที่คล้ายกันเกิดขึ้นในงานที่ซับซ้อนอื่น ๆ เช่น การแปลเอกสารและการวิเคราะห์เนื้อหา เมื่อประมวลผลหนังสือกวีในรูปแบบ PDF, ChatGPT ไม่เพียงแต่ทำข้อผิดพลาดในการดึงข้อความเท่านั้น แต่ยังละเว้นส่วนทั้งหมดของบทกวีและแทรกบทกวีที่แต่งขึ้นมาเองซึ่งไม่มีในงานต้นฉบับ สิ่งนี้แสดงให้เห็นว่าปัญหาทางเทคนิคพื้นฐานส่งผลต่อการประมวลผลเนื้อหาประเภทต่าง ๆ
ความขัดแย้งของผลิตภาพ
แม้จะมีข้อบกพร่องที่สำคัญเหล่านี้ ChatGPT ก็ยังให้คุณค่าอย่างมากสำหรับโครงการที่ซับซ้อน AI สามารถให้สมการที่มีประโยชน์ ข้อมูลพื้นหลัง และรักษาความสอดคล้องของธีมตลอดการอภิปราย ซึ่งเป็นความสามารถที่แสดงถึงความก้าวหน้าครั้งสำคัญเหนือเทคโนโลยีแชทบอทรุ่นก่อน ผู้ใช้รายงานว่าโครงการสามารถเสร็จสิ้นได้ในเวลาประมาณครึ่งหนึ่งเมื่อเทียบกับการทำงานคนเดียว แต่เวลาที่ประหยัดได้ส่วนใหญ่ถูกใช้ไปกับการแก้ไขข้อผิดพลาดและการตรวจสอบ
สิ่งนี้สร้างสิ่งที่ผู้ใช้คนหนึ่งอธิบายว่าเป็นความขัดแย้งของผลิตภาพ ซึ่งคือประหยัดเวลาได้ครึ่งหนึ่งตามที่คาดหวัง แต่สูญเสียอีกหนึ่งในสี่ไปกับการแก้ไขข้อผิดพลาดที่ AI สร้างขึ้น ผลประโยชน์สุทธิมีอยู่จริง แต่มาพร้อมกับต้นทุนที่ซ่อนอยู่ของการเฝ้าระวังอย่างต่อเนื่องและความเครียดจากการไม่รู้ว่าข้อผิดพลาดครั้งต่อไปจะเกิดขึ้นเมื่อไหร่
การวิเคราะห์ผลกระทบต่อประสิทธิภาพการทำงาน
- เวลาที่ประหยัดได้: ลดเวลาในการทำโครงการเบื้องต้นให้เสร็จสิ้นลงได้ประมาณ 50%
- เวลาที่สูญเสีย: ใช้เวลา 25% ของเวลาที่ประหยัดได้ไปกับการแก้ไขข้อผิดพลาดและการตรวจสอบ
- ผลประโยชน์สุทธิ: ประหยัดเวลาโดยรวม 25% แต่มาพร้อมกับความเครียดเพิ่มเติมจากการต้องติดตามอย่างต่อเนื่อง
- ประสิทธิภาพที่ดีที่สุด: การสนทนาแบบสั้นๆ กับคำถามที่เรียบง่าย
- ประสิทธิภาพที่แย่ที่สุด: เซสชันแบบยาวที่มีตัแปรและข้อสมมติหลายอย่าง
โซลูชันทางเทคนิคและข้อจำกัดปัจจุบัน
OpenAI ยอมรับข้อจำกัดเหล่านี้ โดยระบุว่า ChatGPT ทำงานได้ดีที่สุดในการสนทนาแบบสั้น ๆ และบริษัทกำลังปรับปรุงความน่าเชื่อถือในการสนทนาที่ยาวขึ้นอย่างต่อเนื่อง สาเหตุทางเทคนิคดูเหมือนจะเป็นเพราะโมเดลภาษาขนาดใหญ่ทำงานเป็นฐานข้อมูลที่ไม่เรียบร้อยที่สามารถสูญเสียหรือแทนที่ข้อมูลสำคัญโดยไม่มีการเตือน
โซลูชันระดับองค์กรเช่น Retrieval-Augmented Generation (RAG) สามารถช่วยได้โดยการจัดเก็บตัวแปรสำคัญในฐานข้อมูลแยกต่างหาก เพื่อให้แน่ใจว่าจะยังคงเสถียรเว้นแต่จะมีการเปลี่ยนแปลงอย่างชัดเจน อย่างไรก็ตาม ผู้ใช้รายบุคคลส่วนใหญ่ไม่มีการเข้าถึงโครงสร้างพื้นฐานดังกล่าว ทำให้การตรวจสอบด้วยตนเองเป็นการป้องกันเพียงอย่างเดียวต่อข้อผิดพลาดของ AI
ฟีเจอร์เสียงเพิ่มความซับซ้อนอีกชั้นหนึ่ง
การทดสอบแยกต่างหากของฟีเจอร์เสียงของ ChatGPT เผยให้เห็นความท้าทายด้านการใช้งานเพิ่มเติม แม้ว่าฟังก์ชันแฮนด์ฟรีจะทำงานได้ดีสำหรับงานง่าย ๆ เช่น การแนะนำสูตรอาหารหรือสรุปข่าว แต่ผู้ใช้หลายคนพบว่าเสียง AI เรียบเนียนและเทียมเกินไป การส่งมอบที่เรียบเนียนเกินไปสร้างเอฟเฟกต์ uncanny valley ที่ทำให้การโต้ตอบรู้สึกไม่เป็นธรรมชาติตามที่ตั้งใจไว้
ในทางปฏิบัติมากกว่านั้น การโต้ตอบด้วยเสียงบังคับให้ผู้ใช้รับข้อมูลตามจังหวะของ AI แทนที่จะสแกนข้อความอย่างรวดเร็วเพื่อหารายละเอียดที่เกี่ยวข้อง ข้อจำกัดด้านความเร็วนี้ส่งผลต่อผู้ใช้ระดับสูงโดยเฉพาะที่พึ่งพาการประมวลผลข้อมูลอย่างรวดเร็วสำหรับขั้นตอนการทำงานของพวกเขา
ตัวเลือกเสียงของ ChatGPT และประสบการณ์ผู้ใช้
ชื่อเสียง | ลักษณะเด่น | ความคิดเห็นของผู้ใช้ |
---|---|---|
Cove | เสียงที่ผ่อนคลายและให้ความมั่นใจ | เรียบเกินไป ขาดความไม่สมบูรณ์แบบตามธรรมชาติ |
Maple | เสียงสดใสและมีพลัง | ระดับพลังงานไม่สม่ำเสมอ |
Ember | เสียงที่สมดุล | ยังคงรู้สึกเทียม |
Sol | ตัวเลือกมาตรฐาน | ได้รับความนิยมน้อยที่สุดจากผู้ใช้ขั้นสูง |
ปัญหาทั่วไป: การพูดที่เรียบเกินไป การหยุดพักที่ไม่เป็นธรรมชาติ ข้อจำกัดในการควบคุมจังหวะสำหรับการประมวลผลข้อมูลอย่างรวดเร็ว
ผลกระทบต่อการยอมรับ AI
การค้นพบเหล่านี้เน้นให้เห็นช่องว่างที่สำคัญระหว่างคำสัญญาทางการตลาดของ AI และประสิทธิภาพในโลกแห่งความเป็นจริง ในขณะที่ ChatGPT เก่งในการสร้างร่างเริ่มต้นและให้แรงบันดาลใจเชิงสร้างสรรค์ ความน่าเชื่อถือของมันลดลงอย่างมากในสถานการณ์ที่ต้องการความแม่นยำและความใส่ใจในรายละเอียดอย่างต่อเนื่อง ผู้ใช้ต้องชั่งน้ำหนักระหว่างการประหยัดเวลากับภาระทางจิตใจของการตรวจสอบข้อผิดพลาดอย่างต่อเนื่อง
สถานะปัจจุบันของเทคโนโลยี AI แสดงให้เห็นว่าการดูแลของมนุษย์ยังคงเป็นสิ่งจำเป็นสำหรับงานที่สำคัญใด ๆ แทนที่จะแทนที่การตัดสินใจของมนุษย์ เครื่องมือเหล่านี้ควรมองว่าเป็นผู้ช่วยที่ทรงพลังแต่ไม่สมบูรณ์แบบที่ต้องการการจัดการอย่างระมัดระวังเพื่อให้ได้ประโยชน์ตามที่สัญญาไว้