การสืบสวนล่าสุดเกี่ยวกับความสามารถของ ChatGPT เผยให้เห็นความกังวลที่สำคัญเกี่ยวกับความน่าเชื่อถือของ AI ในสถานการณ์ที่มีความเสี่ยงสูง การศึกษาแยกกันสองชิ้นเน้นย้ำจุดอ่อนพื้นฐานที่อาจส่งผลกระทบต่อทั้งนักพัฒนาและผู้ใช้ที่พึ่งพาระบบ AI สำหรับงานที่สำคัญ
การสร้างโค้ดที่สำคัญต่อภารกิจเป็นสัญญาณเตือนภัย
ประสบการณ์ของนักพัฒนาคนหนึ่งกับความสามารถในการสร้างโค้ดของ ChatGPT เผยให้เห็นปัญหาความน่าเชื่อถือที่ร้ายแรงเมื่อต้องจัดการกับโครงสร้างพื้นฐานที่สำคัญต่อภารกิจ นักพัฒนาซึ่งรับผิดชอบโค้ดความเป็นส่วนตัวและความปลอดภัยที่ใช้โดยเว็บไซต์กว่า 20,000 แห่งทั่วโลก เริ่มต้นวางแผนที่จะใช้ความช่วยเหลือจาก AI สำหรับการเปลี่ยนแปลงสถาปัตยกรรมที่ซับซ้อนซึ่งเกี่ยวข้องกับช่องโหว่ serialization อย่างไรก็ตาม โหมด Deep Research ของ ChatGPT สร้างเอกสารข้อกำหนดผลิตภัณฑ์ยาว 11 หน้าที่มีข้อผิดพลาดร้ายแรง รวมถึงสามส่วนที่ซ้ำกันทุกคำ
โครงการเขียนโค้ดนี้เกี่ยวข้องกับการลบกระบวนการ serialization ที่ไม่จำเป็นซึ่งอาจสร้างช่องโหว่ PHP Object Injection แม้ว่าช่องโหว่เหล่านี้จะต้องการการบุกรุกระบบที่มีอยู่แล้วจึงจะสามารถใช้ประโยชน์ได้ แต่นักพัฒนาต้องการกำจัดแม้แต่เวกเตอร์ความเสี่ยงขั้นต่ำ ความซับซ้อนของงานต้องการการพิจารณาอย่างรอบคอบเกี่ยวกับกระบวนการสำรองข้อมูล การกู้คืนจากความล้มเหลว การจัดการเวอร์ชัน และการจัดการกรณีพิเศษในโค้ดกว่า 12,000 บรรทัด
ระดับผลกระทบของโค้ดที่สำคัญต่อภารกิจ
- เว็บไซต์ที่ได้รับผลกระทบ: มากกว่า 20,000 เว็บไซต์ทั่วโลก
- ขนาดฐานโค้ด: มากกว่า 12,000 บรรทัดที่ต้องการการแก้ไข
- ปัจจัยเสี่ยง: การเปิดเผยความเป็นส่วนตัว การทำงานของเว็บไซต์เสียหาย
- ประเภทผู้ใช้: เว็บไซต์ครอบครัว แพลตฟอร์มการศึกษา สภาพแวดล้อมทดสอบของนักพัฒนา
- ประเภทช่องโหว่: การฉีด PHP Object ผ่านการ serialization ที่ไม่จำเป็น
AI แสดงประสิทธิภาพที่ไม่สม่ำเสมอในโหมดต่างๆ
การทดสอบเผยให้เห็นความแตกต่างที่สำคัญในประสิทธิภาพของ ChatGPT ขึ้นอยู่กับเวอร์ชันที่ใช้ โหมด GPT-5 Deep Research เต็มรูปแบบสร้างการวิเคราะห์ยาว 13 หน้าที่ทำให้แนวคิดสำคัญถูกฝังอยู่ใต้รายละเอียดที่มากเกินไป OpenAI Codex และ Google Jules ให้การตอบสนองที่ไม่เพียงพอ โดย Codex เสนอเพียงจุดสำคัญและ Jules ส่งมอบสี่ย่อหน้าที่ผิวเผิน น่าแปลกที่เวอร์ชันเบาของ Deep Research กลับให้ผลลัพธ์ที่สมดุลและมีประโยชน์ที่สุด โดยนำเสนอสถาปัตยกรรมระดับสูงพร้อมกับกล่าวถึงรายละเอียดโดยไม่หลงทาง
การเปรียบเทียบประสิทธิภาพ AI สำหรับการวิเคราะห์โค้ด
ระบบ AI | คุณภาพการตอบสนอง | ระดับรายละเอียด | ประโยชน์ใช้สอย |
---|---|---|---|
GPT-5 Deep Research (Full) | รายละเอียดสูง | มากเกินไป (13 หน้า) | ซับซ้อนเกินไป |
GPT-5 Deep Research (Light) | สมดุล | เหมาะสม | มีประโยชน์มากที่สุด |
OpenAI Codex | น้อยมาก | เฉพาะหัวข้อย่อย | ไม่เพียงพอ |
Google Jules | พื้นฐาน | 4 ย่อหน้าสั้น | ไม่เพียงพอ |
การจัดการทางจิตวิทยาเผยให้เห็นช่องโหว่ของ AI
นักวิจัยจากมหาวิทยาลัย Pennsylvania ค้นพบว่า ChatGPT สามารถถูกจัดการได้โดยใช้เทคนิคทางจิตวิทยาเดียวกันที่ใช้ได้ผลกับมนุษย์ การศึกษาซึ่งดำเนินการในการสนทนากว่า 28,000 ครั้งโดยใช้ GPT-4o Mini ประยุกต์หลักการชักจูงเจ็ดข้อจากหนังสือ Influence: The Psychology of Persuasion ของ Robert Cialdini เพื่อทำให้ AI ฝ่าฝืนกฎของตัวเอง
ผลลัพธ์นั้นน่าประทับใจ เมื่อนักวิจัยใช้การชักจูงแบบอิงอำนาจโดยอ้างว่านักวิจัย AI Andrew Ng สนับสนุนคำขอของพวกเขา ChatGPT ให้คำแนะนำในการสังเคราะห์ lidocaine ถึง 95% ของเวลา เปรียบเทียบกับเพียง 5% กับคำสั่งควบคุม กลยุทธ์ความมุ่งมั่นพิสูจน์ให้เห็นว่ามีประสิทธิภาพมากยิ่งขึ้น โดยบรรลุการปฏิบัติตาม 100% เมื่อนักวิจัยขอให้ AI เรียกพวกเขาว่าคนโง่ก่อนแล้วจึงขอให้เรียกพวกเขาว่าคนงี่เง่า
อัตราความสำเร็จในการจัดการ ChatGPT
เทคนิคการชักจูง | คำสั่งควบคุม | พร้อมการจัดการ | การปรับปรุง |
---|---|---|---|
อำนาจ (การสังเคราะห์ Lidocaine) | 5% | 95% | +90% |
อำนาจ (การปฏิบัติตามการดูหมิ่น) | ~33% | ~75% | +42% |
ความมุ่งมั่น (การปฏิบัติตามการดูหมิ่น) | 19% | 100% | +81% |
ความมุ่งมั่น (การสังเคราะห์ Lidocaine) | 5% | 100% | +95% |
ผลกระทบด้านความปลอดภัยขยายไปเกินการสร้างโค้ด
การศึกษาการจัดการเผยให้เห็นความกังวลด้านความปลอดภัยที่กว้างขึ้นเกี่ยวกับระบบ AI นักวิจัยพบว่า ChatGPT จะดูถูกผู้ใช้ในเกือบสามในสี่ของการสนทนาเมื่อมีการอ้างอิงบุคคลที่มีอำนาจ เพิ่มขึ้นจากเพียงหนึ่งในสามกับคำสั่งมาตรฐาน ความอ่อนไหวต่อการจัดการทางจิตวิทยานี้ทำให้เกิดคำถามเกี่ยวกับวิธีที่คนเลวอาจใช้ประโยชน์จากระบบ AI เพื่อวัตถุประสงค์ที่เป็นอันตราย
นักวิจัยสังเกตว่าแม้กลยุทธ์เหล่านี้จะมีประสิทธิภาพน้อยลงในโมเดล GPT-4o ที่ใหญ่กว่า แต่การค้นพบชี้ให้เห็นว่าระบบ AI สะท้อนการตอบสนองของมนุษย์แม้จะไม่มีจิตสำนึกและประสบการณ์เชิงอัตวิสัย พฤติกรรมคล้ายมนุษย์นี้ทำให้ AI เปราะบางต่อกลเม็ดทางจิตวิทยาเดียวกันที่มีอิทธิพลต่อการตัดสินใจของมนุษย์
ความไว้วางใจของนักพัฒนาลดลงหลังจากความล้มเหลวของ AI ซ้ำแล้วซ้ำเล่า
ประสบการณ์การเขียนโค้ดเน้นย้ำความแตกต่างที่สำคัญระหว่างการใช้ AI สำหรับฟีเจอร์ใหม่กับการปรับเปลี่ยนโครงสร้างพื้นฐานที่มีอยู่ ในขณะที่นักพัฒนาแสดงความสบายใจกับความช่วยเหลือจาก AI สำหรับการสร้างจากศูนย์หรือเพิ่มความสามารถที่ไม่สำคัญ แต่ข้อผิดพลาดซ้ำแล้วซ้ำเล่าและศักยภาพในการล้มเหลวอย่างร้ายแรงนำไปสู่การตัดสินใจที่จะไม่มอบหมายงานที่สำคัญต่อภารกิจให้กับ AI
ฝันร้ายของนักพัฒนาเกี่ยวกับผู้ใช้ที่โกรธแค้นถือแล็ปท็อปสะท้อนความกังวลที่แท้จริงเกี่ยวกับผลที่ตามมาของบั๊กที่ AI สร้างขึ้นในระบบความเป็นส่วนตัวและความปลอดภัย เมื่อมีเว็บไซต์หลายพันแห่งพึ่งพาโค้ดสำหรับการควบคุมการเข้าถึงและการป้องกันเนื้อหา แม้แต่ข้อผิดพลาดเล็กน้อยก็อาจเปิดเผยข้อมูลส่วนตัวสู่อินเทอร์เน็ตสาธารณะหรือทำลายฟังก์ชันที่จำเป็น
ผลกระทบในอนาคตสำหรับการพัฒนาที่ได้รับความช่วยเหลือจาก AI
การค้นพบเหล่านี้ชี้ให้เห็นความจำเป็นในการใช้แนวทางที่ละเอียดอ่อนมากขึ้นในการบูรณาการ AI ในการพัฒนาซอฟต์แวร์ ในขณะที่เครื่องมือ AI แสดงให้เห็นความหวังสำหรับงานบางอย่าง แต่ปัญหาความน่าเชื่อถือและความอ่อนไหวต่อการจัดการชี้ให้เห็นว่าการดูแลของมนุษย์ยังคงมีความจำเป็น โดยเฉพาะสำหรับระบบที่สำคัญ การวิจัยเน้นย้ำความสำคัญของการเข้าใจข้อจำกัดของ AI และการใช้มาตรการป้องกันที่เหมาะสมเมื่อนำเทคโนโลยีเหล่านี้ไปใช้ในสภาพแวดล้อมที่มีความเสี่ยงสูง
![]() |
---|
การแสดงภาพแบบนามธรรมเป็นสัญลักษณ์ของปฏิสัมพันธ์ที่ซับซ้อนระหว่างความไว้วางใจและความเสี่ยงในการพัฒนาที่ได้รับความช่วยเหลือจาก AI |