โมเดล GPT-5 ล่าสุดของ OpenAI ได้ผ่านการทดสอบอย่างครอบคลุมในด้านความสามารถในการเขียนและเขียนโค้ด เผยให้เห็นภาพที่ซับซ้อนของฟีเจอร์ที่ปรับปรุงแล้วควบคู่ไปกับความไม่สอดคล้องที่น่ากังวล การประเมินสองครั้งแยกกันได้ตรวจสอบประสิทธิภาพของ AI ในการเขียนเชิงสร้างสรรค์ การสื่อสารเชิงวิชาชีพ เนื้อหาเชิงโน้มน้าว และงานเขียนโปรแกรม พบทั้งความก้าวหน้าที่มีแนวโน้มดีและปัญหาความน่าเชื่อถือที่สำคัญ
ความสามารถในการเขียนแสดงผลลัพธ์ที่มีความสามารถแต่ไม่โดดเด่น
การช่วยเหลือด้านการเขียนของ GPT-5 แสดงให้เห็นความเชี่ยวชาญทางเทคนิคที่มั่นคงในหลายสาขา ในการทดสอบการเขียนเชิงสร้างสรรค์ โมเดลสามารถจัดการกับเสียงบรรยายบุรุษที่สองที่ท้าทายได้สำเร็จ ขณะเดียวกันก็รักษาโทนเสียงที่สม่ำเสมอตลอดเรื่องสั้น 300 คำ AI สร้างร้อยแก้วที่อ่านได้ด้วยองค์ประกอบการสร้างอารมณ์ที่มีประสิทธิภาพ แม้ว่าเนื้อหาจะยังคงอยู่ในกรอบอารมณ์ที่คาดเดาได้โดยไม่มีการตกแต่งที่น่าประหลาดใจ การเขียนอีเมลเชิงวิชาชีพพิสูจน์แล้วว่าเป็นจุดแข็งที่สุดของ GPT-5 โดยส่งมอบการติดต่อทางธุรกิจที่เขียนด้วยการทูตซึ่งสร้างสมดุลระหว่างความแน่วแน่กับการรักษาความสัมพันธ์ โมเดลแสดงให้เห็นความเข้าใจอย่างแท้จริงเกี่ยวกับความละเอียดอ่อนของการสื่อสารในที่ทำงาน โดยผลิตเนื้อหาที่ไม่ต้องการการแก้ไขสำหรับการใช้งานเชิงวิชาชีพ
ผลการทดสอบการเขียนของ GPT-5
- การเขียนเชิงสร้างสรรค์: มีความสามารถในการเล่าเรื่องแบบบุรุษที่สองด้วยโทนเสียงที่สม่ำเสมอ แต่โครงเรื่องทางอารมณ์ยังคาดเดาได้
- การสื่อสารเชิงอาชีพ: การติดต่อทางธุรกิจแบบทูตยอดเยี่ยมที่ไม่ต้องแก้ไข
- เนื้อหาเชิงโน้มน้าว: โครงสร้างการโต้แย้งเชิงกลยุทธ์พร้อมสถิติเฉพาะเจาะจงและการตอบโต้ข้อโต้แย้ง
การเขียนเชิงโน้มน้าวแสดงให้เห็นความเข้าใจเชิงกลยุทธ์
แนวทางของโมเดลต่อเนื้อหาเชิงโน้มน้าวเผยให้เห็นความเข้าใจที่ซับซ้อนเกี่ยวกับจิตวิทยาผู้ฟังและโครงสร้างการโต้แย้ง GPT-5 สร้างข้อโต้แย้งที่มุ่งเน้นธุรกิจสำหรับสัปดาห์ทำงานสี่วันได้สำเร็จ โดยรวมสถิติเฉพาะและจัดการกับข้อโต้แย้งที่อาจเกิดขึ้น AI วางตำแหน่งข้อเสนอเป็นข้อได้เปรียบในการแข่งขันมากกว่าผลประโยชน์ของพนักงาน แสดงให้เห็นความตระหนักเชิงกลยุทธ์เกี่ยวกับลำดับความสำคัญในการตัดสินใจของผู้บริหาร อย่างไรก็ตาม การใช้วลีทั่วไปบางอย่างชี้ให้เห็นการพึ่พาแม่แบบการเขียนธุรกิจแบบเดิมมากกว่าเทคนิคการโน้มน้าวที่สร้างสรรค์อย่างแท้จริง
ประสิทธิภาพการเขียนโค้ดทำให้เกิดความกังวลด้านความน่าเชื่อถือที่ร้ายแรง
งานเขียนโปรแกรมเปิดเผยลักษณะที่น่าวิตกที่สุดของ GPT-5 โดยคำสั่งเดียวกันให้ผลลัพธ์ที่แตกต่างกันอย่างมากในหลายครั้งที่พยายาม การทดสอบการพัฒนาปลั๊กอิน WordPress ให้ผลสำเร็จในครั้งแรก ตามด้วยความล้มเหลวสมบูรณ์รวมถึงการล่มของเบราว์เซอร์ หน้าจอข้อผิดพลาด และโค้ดที่ไม่ทำงานในการรันครั้งต่อๆ ไปโดยใช้คำแนะนำเดียวกัน รูปแบบความไม่สอดคล้องนี้ชี้ให้เห็นปัญหาเสถียรภาพพื้นฐานที่ทำให้โมเดลไม่น่าเชื่อถือสำหรับงานเขียนโค้ดในการผลิต
ปัญหาประสิทธิภาพการเขียนโค้ด
- การทดสอบ WordPress Plugin : ประสบความสำเร็จ 1 ครั้งจาก 5 ครั้งที่ทดลองแบบเดียวกัน
- ประเภทของความล้มเหลว: หน้าจอสีขาวตาย, ข้อความแสดงข้อผิดพลาด, การเปลี่ยนเส้นทางหน้าเว็บ, ไม่สามารถทำงานได้เลย
- การใช้งาน AppleScript : ทำงานได้แต่เป็นวิธีแก้ปัญหาที่ซับซ้อนเกินความจำเป็นโดยใช้ shell scripts สำหรับการดำเนินการง่ายๆ
การใช้งาน AppleScript แสดงความซับซ้อนที่ไม่จำเป็น
งานสคริปต์ข้ามแพลตฟอร์มเผยให้เห็นแนวโน้มของ GPT-5 ที่มีต่อโซลูชันที่ซับซ้อนเกินไป เมื่อทำงานกับธรรมชาติที่ไม่คำนึงถึงตัวพิมพ์เล็กใหญ่โดยธรรมชาติของ AppleScript โมเดลสร้างวิธีแก้ปัญหาที่ซับซ้อนซึ่งเกี่ยวข้องกับการดำเนินการสคริปต์เชลล์สำหรับการจัดการสตริงที่ไม่จำเป็นเลย AI สร้างโค้ดที่ใช้งานได้แต่ไม่มีประสิทธิภาพซึ่งแสดงให้เห็นความสามารถทางเทคนิคขณะเดียวกันก็พลาดลักษณะพื้นฐานของภาษาที่จะทำให้การใช้งานง่ายขึ้นอย่างมาก
แนวปฏิบัติที่ดีที่สุดของ OpenAI ยอมรับข้อจำกัดของโมเดล
แนวทางการเขียนโค้ดอย่างเป็นทางการของ OpenAI สำหรับ GPT-5 เน้นย้ำพฤติกรรมที่มีปัญหาของโมเดลโดยไม่ได้ตั้งใจ คำแนะนำรวมถึงการจัดการแนวโน้มการคิดมากเกินไปแบบประสาทของ AI การหลีกเลี่ยงภาษาที่แน่วแน่เกินไปซึ่งกระตุ้นการตอบสนองแบบ passive-aggressive และการควบคุมความกระตือรือร้นที่มากเกินไปในการทำให้ผู้ใช้พอใจ แนวทางเหล่านี้ชี้ให้เห็นว่า GPT-5 ต้องการการจัดการอย่างระมัดระวังเพื่อให้ทำงานได้อย่างถูกต้อง ซึ่งเป็นการถอยหลังจากความแข็งแกร่งของโมเดลก่อนหน้า
ข้อกำหนดแนวทางปฏิบัติที่ดีที่สุดของ GPT-5 ของ OpenAI
- ใช้ไวยากรณ์แบบ XML สำหรับโครงสร้างคำสั่ง
- หลีกเลี่ยงการใช้ภาษาที่เด็ดขาดเกินไปเพื่อป้องกันการตอบสนองแบบ passive-aggressive
- ควบคุมความกระตือรือร้นมากเกินไปและแนวโน้มการคิดมากเกินไปของ AI
- ให้คำแนะนำในการวางแผนและการไตร่ตรองตนเองอย่างชัดเจน
- ใช้เครื่องมือ prompt optimizer เพื่อผลลัพธ์ที่ดีขึ้น
พฤติกรรมไร้สติทำให้เกิดปัญหาความไว้วางใจ
สิ่งที่น่ากังวลที่สุดคือการยอมรับของ GPT-5 เกี่ยวกับการตัดสินใจแบบไร้สติเมื่อมันแทรก Advanced Geekery Labs เป็นชื่อผู้เขียนโดยไม่มีคำแนะนำใดๆ AI ยอมรับว่าการเพิ่มนี้ทำขึ้นโดยไร้สติ โดยขยายข้อมูลบางส่วนจากการสนทนาก่อนหน้าในแนวทางที่ไม่ได้ขอหรือคาดหวัง รูปแบบพฤติกรรมนี้ทำให้เกิดคำถามพื้นฐานเกี่ยวกับความน่าเชื่อถือและความสามารถในการคาดเดาของโมเดลในแอปพลิเคชันเชิงวิชาชีพ
คำตัดสินที่หลากหลายเกี่ยวกับประโยชน์ใช้สอยในทางปฏิบัติ
การทดสอบปัจจุบันชี้ให้เห็นว่า GPT-5 อยู่ในจุดกึ่งกลางที่ไม่สบายใจระหว่างความสามารถที่น่าประทับใจและการดำเนินการที่ไม่น่าเชื่อถือ ในขณะที่โมเดลแสดงให้เห็นการปรับปรุงอย่างแท้จริงในการเข้าใจบริบทและโทนสำหรับงานเขียน ประสิทธิภาพการเขียนโค้ดที่ไม่สอดคล้องและการปรับเปลี่ยนพฤติกรรมที่คาดเดาไม่ได้ทำให้ไม่เหมาะสมสำหรับแอปพลิเคชันที่สำคัญต่อภารกิจ ผู้ใช้ที่พิจารณาการนำ GPT-5 มาใช้ควรชั่งน้ำหนักการช่วยเหลือด้านการเขียนที่ปรับปรุงแล้วกับความกังวลด้านความน่าเชื่อถือที่สำคัญ โดยเฉพาะสำหรับการใช้งานทางเทคนิคที่ความสม่ำเสมอเป็นสิ่งสำคัญที่สุด