การเปิดตัว GPT-5 ล่าสุดของ OpenAI ได้จุดประกายการถกเถียงอย่างรุนแรงในชุมชน AI เกี่ยวกับว่าการพัฒนาปัญญาประดิษฐ์ได้ถึงจุดหยุดนิ่งแล้วหรือไม่ แม้ว่าบริษัทจะแสดงให้เห็นวิวัฒนาการจากการตอบสนองที่ไร้เหตุผลของ GPT-1 ไปสู่การใช้เหตุผลที่ซับซ้อนของ GPT-5 แต่ผู้ใช้หลายคนกำลังตั้งคำถามว่าโมเดลล่าสุดนี้แสดงถึงความก้าหน้าที่แท้จริงหรือเป็นการถอยหลัง
ไทม์ไลน์วิวัฒนาการของโมเดล:
- 2018 GPT-1: การตอบสนองที่ไม่สอดคล้องกัน ข้อมูลการฝึกอบรมเน้นหนักไปทางวรรณกรรม
- 2019 GPT-2: ความสามารถในการสนทนาเบื้องต้น ยังคงไม่มีจุดโฟกัสที่ชัดเจน
- 2021 text-davinci-001: การตอบสนองที่ตรงไปตรงมาและกระชับ
- 2023 GPT-4-0314: โทนเสียงที่มีโครงสร้างและเป็นมืออาชีพพร้อมข้อจำกัดความรับผิดชอบ
- 2025 GPT-5: การตอบสนองที่ยืดยาวและเต็มไปด้วยคำชมเชยแต่มีปัญหาทางเทคนิค
ข้อกังวลด้านประสิทธิภาพบดบังการอ้างทางการตลาด
ผู้ใช้รายงานปัญหาสำคัญกับฟังก์ชันหลักของ GPT-5 หลายคนอธิบายว่าโมเดลนี้สับสนและมีแนวโน้มที่จะเกิดข้อผิดพลาดที่ไม่เคยมีใน GPT-4 การสร้างโค้ดกลายเป็นปัญหาเฉพาะอย่างยิ่ง โดย AI ตีความไวยากรณ์การเขียนโปรแกรมทั่วไปผิดและไม่สามารถทำงานที่ยาวขึ้นให้เสร็จได้ ผู้ใช้คนหนึ่งสังเกตว่าเมื่อทำงานกับเอกสาร markdown ที่มีความยาวปานกลาง (ประมาณ 700 บรรทัด) GPT-5 จะหยุดกลางประโยค ไม่สามารถทำงานให้เสร็จได้
โมเดลนี้ยังมีปัญหากับ regular expressions โดยเติมโทเค็นที่ไร้สาระซึ่งภายหลังจะยอมรับว่าเป็นข้อผิดพลาดในการแสดงผล ข้อบกพร่องทางเทคนิคเหล่านี้ทำให้บางคนสงสัยว่า GPT-5 อาจถูกปรับให้เหมาะสมสำหรับการลดต้นทุนการคำนวณของ OpenAI มากกว่าการปรับปรุงประสบการณ์ผู้ใช้
ปัญหาหลักของ GPT-5 ที่มีการรายงาน:
- ข้อผิดพลาดในการสร้างโค้ด (เช่น
.ends_with
แทนที่จะเป็น.endswith
) - การประมวลผลเอกสารยาว (700+ บรรทัด) ไม่สมบูรณ์
- Regular expression ที่เต็มไปด้วย token ที่ไร้สาระ
- ความละเอียดที่เพิ่มขึ้นทำให้ประโยชน์ในการใช้งานจริงลดลง
- ความสับสนในงานที่ต้องใช้การใช้เหตุผลหลายขั้นตอน
การแลกเปลี่ยนระหว่างความคิดสร้างสรรค์และความสามารถ
รูปแบบที่น่าสนใจเกิดขึ้นเมื่อเปรียบเทียบการตอบสนองข้ามรุ่นโมเดลต่างๆ โมเดลรุ่นก่อนๆ เช่น GPT-1 และ GPT-2 แม้จะมีข้อจำกัดทางเทคนิค แต่มักสร้างเนื้อหาที่สร้างสรรค์และน่าสนใจมากกว่า การตอบสนองของพวกมัน แม้จะไร้เหตุผลบางครั้ง แต่ก็มีคุณภาพเชิงบทกวีที่ผู้ใช้หลายคนพบว่าเป็นแรงบันดาลใจสำหรับงานสร้างสรรค์
บางสิ่งหาใน Google ยาก เพราะคุณไม่สามารถตั้งคำถามได้ถูกต้อง ตัวอย่างเช่น คุณรู้บริบทและคำอธิบายที่แย่ๆ ของสิ่งที่คุณต้องการ การค้นหาใน Google จะไม่พาคุณไปไหน LLMs จะให้คำตอบที่ถูกต้อง 95% ของเวลา
เมื่อโมเดลมีความสามารถมากขึ้น พวกมันก็กลายเป็นที่คาดเดาได้และพูดพล่ามมากขึ้น การตอบสนองของ GPT-5 มักเริ่มต้นด้วยการยกย่องคำถามของผู้ใช้อย่างมากเกินไปก่อนที่จะส่งมอบคำตอบแบบเรียงความที่ยาว ซึ่งหลายคนพบว่าไม่มีประโยชน์เท่ากับการตอบสนองโดยตรงจากเวอร์ชันก่อนหน้า
ความน่าเชื่อถือในการตรวจสอบข้อเท็จจริงยังคงเป็นที่ถกเถียง
ชุมชนยังคงแบ่งแยกเรื่องการใช้โมเดลภาษาขนาดใหญ่สำหรับข้อมูลข้อเท็จจริง ในขณะที่ผู้ใช้บางคนรายงานอัตราความแม่นยำสูงสำหรับคำถามความรู้ทั่วไป คนอื่นๆ ชี้ไปที่ข้อผิดพลาดที่ยังคงมีอยู่แม้ในฟังก์ชันการเขียนโปรแกรมพื้นฐาน ปรากฏการณ์ Gell-Mann amnesia - การเชื่อใจแหล่งข้อมูลในพื้นที่ที่ไม่คุ้นเคยแม้จะรู้ว่ามันทำผิดพลาดในพื้นที่ที่คุ้นเคย - ยังคงเป็นข้อกังวลในหมู่ผู้ใช้ด้านเทคนิค
เวอร์ชันสมัยใหม่มีความสามารถในการค้นหาและลิงก์อ้างอิงซึ่งช่วยในการตรวจสอบ อย่างไรก็ตาม คำถามพื้นฐานเรื่องความน่าเชื่อถือยังคงอยู่ โดยเฉพาะสำหรับผู้ใช้ที่ต้องการความแม่นยำที่สม่ำเสมอในงานของพวกเขา
รูปแบบความชอบของผู้ใช้:
- GPT-3.5 ถึง GPT-4: ถือว่าเป็นการก้าวกระโดดที่สำคัญที่สุด
- GPT-4o: การปรับปรุงที่สำคัญในด้านความแม่นยำ คุ้มค่ากับการสมัครสมาชิก 20 ดอลลาร์สหรัฐ
- โมเดล o1: การปรับปรุงความสามารถในการเขียนโค้ดอย่างมาก
- GPT-5: ผู้ใช้หลายคนมองว่าเป็นการปรับปรุงเพียงเล็กน้อยหรือถอยหลัง
ความเป็นจริงของตลาดเทียบกับความสำเร็จทางเทคนิค
การตอบรับอย่างอุ่นๆ ของ GPT-5 เน้นย้ำช่องว่างที่เพิ่มขึ้นระหว่างความสำเร็จทางเทคนิคและความคาดหวังของผู้ใช้ ในขณะที่โมเดลแสดงการปรับปรุงในเกณฑ์มาตรฐานและงานการใช้เหตุผลบางอย่าง ประสบการณ์ปฏิบัติสำหรับผู้ใช้หลายคนรู้สึกเหมือนการลดระดับ ความขัดแย้งนี้นำไปสู่การคาดเดาว่าอุตสาหกรรม AI อาจกำลังเข้าใกล้ขีดจำกัดของแนวทางการฝึกอบรมปัจจุบัน
ความก้าวหน้าจาก GPT-3.5 ไปสู่ GPT-4 แสดงถึงการก้าวกระโดดครั้งใหญ่ในความสามารถ ทำให้เครื่องมือ AI มีประโยชน์อย่างแท้จริงสำหรับงานหลายอย่าง อย่างไรก็ตาม การปรับปรุงที่ตามมามีลักษณะเพิ่มขึ้นทีละน้อยมากขึ้น โดยแต่ละโมเดลใหม่นำมาซึ่งการแลกเปลี่ยนมากกว่าข้อได้เปรียบที่ชัดเจนในทุกกรณีการใช้งาน
สถานการณ์ปัจจุบันแสดงให้เห็นว่าการพัฒนาครั้งต่อไปใน AI อาจต้องการแนวทางที่แตกต่างโดยพื้นฐานมากกว่าการขยายโมเดลที่มีอยู่ ก่อนถึงเวลานั้น ผู้ใช้ยังคงถกเถียงกันว่าโมเดล AI ล่าสุดแสดงถึงความก้าวหน้าหรือเป็นเพียงการออกกำลังกายทางการตลาดที่แพง
อ้างอิง: What would you say if you could talk to a future OpenAl model?