GPT-5 แสดงความก้าวหน้าอย่างมากในคำถามท้าทาย ChatGPT ฉบับดั้งเดิมของ Knuth

ทีมชุมชน BigGo
GPT-5 แสดงความก้าวหน้าอย่างมากในคำถามท้าทาย ChatGPT ฉบับดั้งเดิมของ Knuth

ในเดือนพฤษภาคม 2023 นักวิทยาศาสตร์คอมพิวเตอร์ในตำนาน Donald Knuth ได้ทดสอบ ChatGPT ด้วยคำถามท้าทาย 20 ข้อ เผยให้เห็นจุดอ่อนที่สำคัญในความสามารถในการใช้เหตุผลของระบบ AI ขณะนี้ เกือบสองปีต่อมา ชุมชนเทคโนโลยีกำลังกลับมาทบทวนคำถามเดียวกันนั้นด้วย GPT-5 เผยให้เห็นการปรับปรุงที่น่าทึ่งในความสามารถของ AI

ไทม์ไลน์ของ Knuth Challenge ฉบับดั้งเดิม

  • พฤษภาคม 2023: Donald Knuth เผยแพร่คำถามท้าทาย 20 ข้อสำหรับ ChatGPT
  • 626 ความเห็นและ 927 คะแนนในการอภิปรายครั้งแรก
  • GPT-3.5 ถูกใช้เป็นหลักในการทดสอบครั้งแรก
  • 2025: ชุมชนกลับมาทบทวนคำถามเหล่านั้นด้วย GPT-5

GPT-5 ให้การใช้เหตุผลทางคณิตศาสตร์ที่แม่นยำมากขึ้น

โมเดลใหม่แสดงความก้าวหน้าอย่างมากในปัญหาทางคณิตศาสตร์ที่เคยทำให้เวอร์ชันก่อนหน้าติดขัด การปรับปรุงที่น่าสังเกตเป็นพิเศษคือการจัดการกับนิยามทางคณิตศาสตร์ที่ซับซ้อนและกรณีพิเศษ เมื่อถูกถามเกี่ยวกับสัมประสิทธิ์ทวินามที่มีจำนวนเต็มลบ GPT-5 ให้คำอธิบายที่ละเอียดเกี่ยวกับวิธีที่ Wolfram นิยามวัตถุทางคณิตศาสตร์เหล่านี้ โดยยอมรับแนวทางที่แตกต่างกันและข้อดีข้อเสียของแต่ละแนวทาง สิ่งนี้แสดงถึงการก้าวกระโดดที่สำคัญจากคำตอบที่สับสนหรือไม่ถูกต้องที่เป็นลักษณะเด่นของโมเดลรุ่นก่อนหน้า

อย่างไรก็ตาม ข้อจำกัดพื้นฐานบางอย่างยังคงอยู่ โมเดลยังคงมีปัญหากับงานการนับตัวอักษรพื้นฐาน ไม่สามารถสร้างประโยคที่ใช้เฉพาะคำที่มีห้าตัวอักษรเท่านั้น จุดอ่อนนี้เกิดจากวิธีที่ระบบ AI เหล่านี้ประมวลผลภาษาผ่านชิ้นส่วนคำแทนที่จะเป็นตัวอักษรแต่ละตัว ทำให้งานระดับตัวอักษรยากอย่างน่าประหลาด

ข้อจำกัดที่ยังคงมีอยู่

  • การนับตัวอักษรและงานในระดับตัวอักษร
  • การสร้างประโยคที่มีข้อกำหนดเฉพาะเจาะจงเกี่ยวกับความยาวของคำ
  • ปัญหาการแบ่งโทเค็นด้วย BPE (Byte Pair Encoding)
  • ข้อผิดพลาดที่ละเอียดอ่อนซึ่งอาจตรวจจับได้ยากกว่า

ประสิทธิภาพการเขียนโค้ดแสดงการปรับปรุงที่น่าทึ่ง

บางทีความก้าวหน้าที่น่าประทับใจที่สุดปรากฏในงานการเขียนโปรแกรม GPT-5 แสดงความเข้าใจที่แข็งแกร่งมากขึ้นในการพัฒนาซอฟต์แวร์ สร้างโค้ดที่ไม่เพียงแต่ถูกต้องเท่านั้น แต่ยังมีโครงสร้างที่ดีและใช้งานได้จริง ผู้ใช้รายงานว่าโมเดลสามารถสร้างโปรแกรมที่ซับซ้อนพร้อมคุณสมบัติที่มีประโยชน์ที่ไม่ได้ขอมาอย่างชัดเจน แสดงให้เห็นความเข้าใจที่ดีขึ้นเกี่ยวกับสิ่งที่ทำให้โค้ดมีประโยชน์อย่างแท้จริง

โน้ตบุ๊กที่มันสร้างขึ้นถูกต้อง 100% มีประโยชน์จริงๆ และสร้างขึ้นในลักษณะทั่วไปเพื่อให้ฉันสามารถเปลี่ยนการแมปได้อย่างง่ายดายเพื่อสำรวจฟังก์ชันประเภทต่างๆ

การปรับปรุงการเขียนโค้ดนี้ขยายไปเกินกว่าความถูกต้องของไวยากรณ์อย่างง่าย ไปจนถึงการตัดสินใจด้านสถาปัตยกรรมที่ดีกว่าและโครงสร้างโค้ดที่บำรุงรักษาได้มากขึ้น

พื้นที่สำคัญที่ปรับปรุงใน GPT-5

  • การใช้เหตุผลทางคณิตศาสตร์กับกรณีขอบที่ซับซ้อน
  • การสร้างโค้ดและสถาปัตยกรรมซอฟต์แวร์
  • ลดความถี่ของคำตอบที่ผิดพลาดอย่างชัดเจน
  • การจัดการงานการเขียนโปรแกรม Wolfram/Mathematica ที่ดีขึ้น

ความกังวลเรื่องความไว้วางใจและความน่าเชื่อถือยังคงอยู่

แม้จะมีความก้าวหน้าเหล่านี้ ชุมชนยังคงต่อสู้กับคำถามพื้นฐานเกี่ยวกับความน่าเชื่อถือของ AI ผู้ใช้บางคนสังเกตว่าแม้ว่า GPT-5 จะให้คำตอบที่ผิดพลาดอย่างชัดเจนน้อยลง แต่การปรับปรุงนี้อาจทำให้ระบบอันตรายมากขึ้นโดยทำให้ข้อผิดพลาดตรวจพบได้ยากขึ้น ความกังวลมุ่งเน้นไปที่ความไม่ถูกต้องที่ละเอียดอ่อนซึ่งอาจหลุดพ้นจากการตรวจสอบของมนุษย์ โดยเฉพaะในสาขาที่ผู้ใช้ขาดความเชี่ยวชาญเชิงลึก

การอภิปรายเผยให้เห็นความท้าทายที่ต่อเนื่องในการพัฒนา AI: การสร้างสมดุลระหว่างการปรับปรุงความสามารถกับความน่าเชื่อถือ เมื่อระบบเหล่านี้มีความซับซ้อนมากขึ้น พวกมันอาจเก่งขึ้นในการสร้างข้อมูลที่น่าเชื่อถือแต่ไม่ถูกต้อง ทำให้การตรวจสอบของมนุษย์มีความสำคัญมากขึ้นและยากขึ้นในเวลาเดียวกัน

มองไปข้างหน้า

ความก้าวหน้าจาก GPT-3.5 ไป GPT-5 แสดงถึงความก้าวหน้าที่สำคัญในความสามารถของ AI โดยเฉพาะในการใช้เหตุผลทางคณิตศาสตร์และการสร้างโค้ด อย่างไรก็ตาม ความท้าทายที่ยังคงอยู่กับงานพื้นฐานเช่นการนับตัวอักษรทำหน้าที่เป็นตัวเตือนว่าระบบเหล่านี้ยังมีข้อจำกัดพื้นฐาน ขณะที่เทคโนโลยียังคงพัฒนาต่อไป สมดุลระหว่างความสามารถและความน่าเชื่อถือยังคงเป็นข้อพิจารณาที่สำคัญสำหรับทั้งนักพัฒนาและผู้ใช้

อ้างอิง: DAIKIN.AI Q&A