ชุมชนตั้งคำถามความถูกต้องของการอ้างสิทธิ์ Prompt Engineering ของ GPT-5-mini โดยไม่มีความโปร่งใส

ทีมชุมชน BigGo
ชุมชนตั้งคำถามความถูกต้องของการอ้างสิทธิ์ Prompt Engineering ของ GPT-5-mini โดยไม่มีความโปร่งใส

บล็อกโพสต์ล่าสุดที่อ้างว่าสามารถเพิ่มประสิทธิภาพของ GPT-5-mini ได้ 22% ผ่านการเขียน prompt ใหม่ ได้จุดประกายการถกเถียงในชุมชนเทคโนโลยี โดยนักพัฒนาหลายคนตั้งคำถามเกี่ยวกับความถูกต้องของผลลัพธ์เนื่องจากขาดรายละเอียดสำคัญ

บทความต้นฉบับอธิบายว่านักวิจัยใช้ Claude ในการเขียน prompt สำหรับ GPT-5-mini ใหม่ โดยเปลี่ยนเอกสารนโยบายที่ยาวเหยียดให้กลายเป็นคำแนะนำที่ชัดเจนทีละขั้นตอน การเปลี่ยนแปลงดังกล่าวมีรายงานว่าปรับปรุงอัตราความสำเร็จของโมเดลจาก 55% เป็น 67.5% ในงาน benchmark ด้านโทรคมนาคม อย่างไรก็ตาม การตอบสนองจากชุมชนมีความสงสัยอย่างเห็นได้ชัด

การปรับปรุงประสิทธิภาพที่อ้างว่าได้:

  • อัตราความสำเร็จพื้นฐานของ GPT-5-mini : 55%
  • หลังจากการปรับแต่งพรอมต์: 67.5% (ปรับปรุงขึ้น 22.73%)
  • เมตริก k:2 ปรับปรุงจาก 40% เป็น 50% (ปรับปรุงขึ้น 25%)
  • ลดงานที่แก้ไขไม่ได้จาก 6 เหลือ 3 จากทั้งหมด 20 สถานการณ์ทดสอบ
การออกแบบโลโก้แบบมืออาชีพสำหรับ Quesma ที่เชื่อมโยงไปยังโพสต์บล็อกที่จุดประกายการถกเถียงเรื่องการอ้างสมรรถนะของ GPT-5-mini
การออกแบบโลโก้แบบมืออาชีพสำหรับ Quesma ที่เชื่อมโยงไปยังโพสต์บล็อกที่จุดประกายการถกเถียงเรื่องการอ้างสมรรถนะของ GPT-5-mini

รายละเอียดสำคัญที่หายไปทำให้การอ้างสิทธิ์อ่อนแอลง

การวิจารณ์ที่สำคัญที่สุดมุ่งเน้นไปที่การขาดความโปร่งใส สมาชิกชุมชนเรียกร้องให้เห็น prompt จริงที่ใช้ในการทดลอง ทั้งก่อนและหลังการปรับปรุงของ Claude หากไม่มีตัวอย่างเหล่านี้ จะเป็นไปไม่ได้ที่จะตรวจสอบว่าการปรับปรุงมาจาก prompt engineering ที่ดีกว่า หรือเพียงแค่การแก้ไข prompt ต้นฉบับที่เขียนได้ไม่ดี

ผู้แสดงความคิดเห็นคนหนึ่งชี้ให้เห็นว่าการปรับปรุงที่แนะนำหลายอย่าง เช่น การใช้ decision tree ที่ชัดเจน เงื่อนไขแบบไบนารี และคำสั่งแบบ imperative เป็นแนวทางปฏิบัติ prompt engineering ที่มีมาแล้ว สิ่งนี้ทำให้เกิดคำถามว่า prompt ต้นฉบับมีมาตรฐานต่ำกว่าปกติตั้งแต่แรกหรือไม่

หมวดหมู่การปรับปรุงพรอมต์หลัก:

  • โครงสร้างและการไหล: ต้นไม้การตัดสินใจ, ขั้นตอนตามลำดับ, การตรวจสอบข้อกำหนดเบื้องต้น
  • การปรับปรุง AI Agent : ความชัดเจนในการเรียกใช้เครื่องมือ, การตัดสินใจแบบไบนารี, การจัดการข้อผิดพลาด
  • การลดภาระทางความคิด: ตารางอ้างอิง, การจดจำรูปแบบ, การเตือนที่สำคัญ
  • ภาษาที่นำไปปฏิบัติได้: คำสั่งแบบบังคับ, เวิร์กโฟลว์แบบรวม, การตรวจสอบทันที

ความกังวลเกี่ยวกับการรั่วไหลของข้อมูล

ข้อสังเกตที่ชาญฉลาดเป็นพิเศษจากชุมชนเกี่ยวข้องกับการรั่วไหลของข้อมูลที่อาจเกิดขึ้น เมื่อ Claude เขียน prompt ใหม่ อาจโดยไม่ได้ตั้งใจแก้งาน benchmark บางอย่างและแทรกคำใบ้เล็กๆ น้อยๆ เกี่ยวกับแนวทาง สิ่งนี้อาจทำให้คะแนนประสิทธิภาพสูงขึ้นอย่างผิดปกติ ทำให้ผลลัพธ์มีความหมายน้อยกว่าที่ปรากฏ

ความแตกต่างระหว่างการเขียนคำแนะนำทั่วไปใหม่กับการเขียนข้อความเฉพาะงานใหม่กลายเป็นสิ่งสำคัญที่นี่ หาก Claude ปรับเปลี่ยนเพียงการจัดรูปแบบและโครงสร้างทั่วไป ผลลัพธ์อาจมีความถูกต้องมากกว่าหากมันแตะต้องคำอธิบายงานหลัก

ความท้าทายในการนำไปใช้งานจริง

นอกเหนือจากความกังวลเรื่องการตรวจสอบแล้ว นักพัฒนายังตั้งคำถามเกี่ยวกับคุณค่าในทางปฏิบัติของแนวทางนี้ การใช้ Claude ในการเขียน prompt ใหม่เพิ่มภาระการคำนวณที่อาจทำให้ประโยชน์ด้านความเร็วและต้นทุนของการใช้ GPT-5-mini หมดไป แม้ว่าสิ่งนี้อาจใช้ได้กับ system prompt แบบคงที่ แต่ก็กลายเป็นปัญหาสำหรับการโต้ตอบแบบไดนามิกของผู้ใช้

ปัญหาเดียวคือฉันรู้สึกว่าการให้ Claude เขียน prompt ใหม่ทำให้ประโยชน์ด้านประสิทธิภาพและ latency ของการใช้ mini ลดลง

บางคนแนะนำว่า GPT-5-mini อาจสามารถจัดการการจัดรูปแบบ prompt ภายในได้ ซึ่งอาจเสนอโซลูชันที่มีประสิทธิภาพมากกว่า

แผนภูมิแท่งแสดงความแม่นยำของโมเดล AI ต่างๆ ในภาคส่วนต่างๆ โดยเน้นการประเมินประสิทธิภาพของ GPT-5-mini
แผนภูมิแท่งแสดงความแม่นยำของโมเดล AI ต่างๆ ในภาคส่วนต่างๆ โดยเน้นการประเมินประสิทธิภาพของ GPT-5-mini

เครื่องมือที่มีอยู่แล้วจัดการปัญหาเหล่านี้ได้

สมาชิกชุมชนหลายคนสังเกตว่าการปรับ prompt ให้เหมาะสมแบบนี้ไม่ใช่เรื่องใหม่ เครื่องมือเช่น DSPy ได้จัดการกับความท้าทายที่คล้ายกันในการเขียนโปรแกรม LLM มาระยะหนึ่งแล้ว แม้ว่าจะยังไม่ได้รับการใช้งานอย่างแพร่หลายในชุมชนนักพัฒนา

การอภิปรายเผยให้เห็นรูปแบบทั่วไปที่บล็อกโพสต์แต่ละโพสต์ค้นพบเทคนิคที่นักวิจัยทางวิชาการได้สำรวจและทำให้เป็นทางการแล้ว สิ่งนี้เน้นให้เห็นช่องว่างระหว่างงานวิจัยที่ล้ำสมัยและการนำไปใช้งานจริงในสาขานี้

การเปรียบเทียบประสิทธิภาพของโมเดลใน Telecom Benchmark:

  • GPT-5 (flagship): อัตราความสำเร็จประมาณ 97%
  • GPT-5-mini (optimized): อัตราความสำเร็จ 67.5%
  • o3 : อัตราความสำเร็จ 58%
  • GPT-5-mini (baseline): อัตราความสำเร็จ 55%
  • GPT-4 : อัตราความสำเร็จ 34%

บทสรุป

แม้ว่าแนวคิดหลักของการปรับ prompt ให้เหมาะสมสำหรับโมเดลที่เล็กกว่าจะมีคุณค่า แต่การตอบสนองอย่างสงสัยของชุมชนเน้นย้ำถึงความสำคัญของความโปร่งใสในการอ้างสิทธิ์งานวิจัย AI หากไม่สามารถเข้าถึง prompt จริงและวิธีการที่ชัดเจนกว่า จะเป็นเรื่องยากที่จะแยกแยะข้อมูลเชิงลึกที่แท้จริงจากการออกแบบการทดลองที่อาจมีข้อบกพร่อง

การถกเถียงนี้เป็นเครื่องเตือนใจว่าการอ้างสิทธิ์ที่พิเศษต้องการหลักฐานที่พิเศษ โดยเฉพาะในสาขาที่การเปลี่ยนแปลงเล็กน้อยสามารถส่งผลกระทบต่อผลลัพธ์อย่างมาก สำหรับนักพัฒนาที่สนใจการปรับ prompt ให้เหมาะสม เฟรมเวิร์กที่มีอยู่แล้วเช่น DSPy อาจเสนอแนวทางที่เชื่อถือได้มากกว่าการทดลองเขียนใหม่แบบเฉพาะกิจ

อ้างอิง: Tau² Benchmark: How a Prompt Rewrite Boosted GPT-5-mini by 22%