ChatGPT Agent ของ OpenAI แสดงศักยภาพแต่ยังมีปัญหาด้านความแม่นยำและความน่าเชื่อถือในการทดสอบอย่างครอบคลุม

ทีมบรรณาธิการ BigGo

ChatGPT Agent ของ OpenAI แสดงศักยภาพแต่ยังมีปัญหาด้านความแม่นยำและความน่าเชื่อถือในการทดสอบอย่างครอบคลุม

ChatGPT Agent ที่เพิ่งเปิดตัวของ OpenAI เป็นก้าวสำคัญในการพัฒนาระบบอัตโนมัติด้วย AI โดยรวมความสามารถในการเรียกดูเว็บไซต์เข้ากับการปฏิบัติงาน อย่างไรก็ตาม การทดสอบในสถานการณ์จริงอย่างละเอียดเผยให้เห็นว่าเครื่องมือนี้ยังคงต้องปรับปรุง โดยให้ผลลัพธ์ที่ไม่สม่ำเสมอตั้งแต่น่าประทับใจไปจนถึงมีปัญหา

โครงสร้างราคาสร้างอุปสรรคสูงในการเข้าถึง

ChatGPT Agent ในปัจจุบันมีให้เฉพาะสมาชิกระดับ Pro ในราคา 200 ดอลลาร์สหรัฐต่อเดือน โดยให้การโต้ตอบกับเอเจนต์ 400 ครั้งต่อเดือน เมื่อฟีเจอร์นี้เปิดให้สมาชิก Plus ในราคา 20 ดอลลาร์สหรัฐต่อเดือน พวกเขาจะได้รับเพียง 40 ครั้งการโต้ตอบ โมเดลราคานี้สะท้อนถึงความเข้มข้นในการคำนวณของบริการ แต่การทดสอบชี้ให้เห็นว่าผู้ใช้จะต้องใช้คำสั่งหลายครั้งต่อโปรเจกต์ ทำให้จำนวนงานที่สามารถทำให้เสร็จได้จริงลดลง

การเปรียบเทียบราคา:

Pro Tier: 200 เหรียญสหรัฐต่อเดือน สำหรับ 400 การโต้ตอบกับ agent
Plus Tier: 20 เหรียญสหรัฐต่อเดือน สำหรับ 40 การโต้ตอบกับ agent (เร็วๆ นี้)
การใช้งานจริง: คาดว่าจะทำได้ 20-25 โปรเจกต์เนื่องจากต้องมีการสอบถามติดตาม

ผลการทำงานแสดงความไม่สม่ำเสมออย่างมีนัยสำคัญ

การทดสอบอย่างครอบคลุมในแปดสถานการณ์ต่างกันเผยให้เห็นรูปแบบที่น่ากังวลของผลลัพธ์ที่หลากหลาย เอเจนต์แสดงความเข้าใจที่ดีต่อปัญหาส่วนใหญ่ แต่มักล้มเหลวในการปฏิบัติงานอย่างมีประสิทธิภาพ การเรียกดูเว็บไซต์เป็นเรื่องที่ท้าทายเป็นพิเศษ โดยเอเจนต์มีปัญหาในการเลื่อนหน้าเว็บและถูกบล็อกด้วยข้อจำกัดของ AI ในหลายเว็บไซต์ การหมดเวลาของเซสชันยังขัดจังหวะงานประมวลผลที่ใช้เวลานาน แม้ในระดับ Pro พรีเมียม

สรุปผลการทดสอบ:

จำนวนการทดสอบทั้งหมด: 8 สถานการณ์จำลองแบบครอบคลุม
ช่วงเวลาในการประมวลผล: 2-32 นาทีต่องาน
อัตราความสำเร็จ: 1 ผลลัพธ์ที่ใกล้เคียงกับความสมบูรณ์แบบ, 7 ผลลัพธ์ที่มีปัญหาสำคัญ
ปัญหาที่พบบ่อย: ลิงก์เสีย, ข้อมูลที่ไม่ถูกต้อง, คุณภาพกราฟิกที่ไม่ดี

ความกังวลด้านความแม่นยำทำให้เกิดคำถามเกี่ยวกับการใช้งานระดับมืออาชีพ

แนวโน้มของเอเจนต์ในการสร้างข้อมูลเท็จก่อให้เกิดความกังวลร้ายแรงสำหรับการใช้งานระดับมืออาชีพ ในระหว่างการค้นหาสินค้าใน Amazon เครื่องมือนี้ให้ลิงก์สินค้าที่ไม่มีอยู่จริงและคำแนะนำที่แต่งขึ้น เมื่อได้รับมอบหมายให้สร้างงานนำเสนอ มันสร้างสไลด์ที่มีข้อความซ้อนทับกัน ขาดคำอธิบาย และคุณภาพกราฟิกที่ไม่ดี ที่น่ากังวลที่สุดคือ เมื่องานนำเสนอที่สร้างด้วย AI ถูกตรวจสอบข้อเท็จจริงโดยเซสชัน ChatGPT Agent อื่น มีเพียงห้าจากสิบเจ็ดจุดข้อมูลที่สามารถยืนยันได้อย่างสมบูรณ์ ในขณะที่เซสชัน GPT-4o มาตรฐานได้ตรวจสอบข้อความยืนยันทั้งหมดไว้ก่อนหน้านี้

ผลการตรวจสอบความถูกต้อง: เมื่อนำงานนำเสนอที่สร้างโดย AI มาตรวจสอบข้อเท็จจริง:

ยืนยันได้อย่างสมบูรณ์: 5/17 จุดข้อมูล
ยืนยันได้ส่วนใหญ่: 6/17 จุดข้อมูล
ยืนยันได้บางส่วน: 4/17 จุดข้อมูล
ไม่สามารถตรวจสอบได้: 2/17 จุดข้อมูล

ข้อจำกัดทางเทคนิคขัดขวางโปรเจกต์ที่ซับซ้อน

เอเจนต์มีปัญหากับโปรเจกต์วิเคราะห์ข้อมูลขนาดใหญ่ที่โดยปกติจะต้องการความช่วยเหลือจาก AI ปัญหาความเข้ากันได้ของเบราว์เซอร์ป้องกันการใช้งานในแอป macOS และการรันเอเจนต์หลายเซสชันพร้อมกันทำให้ระบบค้าง ข้อจำกัดเหล่านี้ลดประโยชน์ของเครื่องมือสำหรับงานวิจัยและวิเคราะห์ที่ครอบคลุม ซึ่งจะทำให้ค่าสมาชิกที่สูงคุ้มค่า

ข้อจำกัดทางเทคนิค:

ไม่สามารถจัดการโครงการวิเคราะห์ข้อมูลขนาดใหญ่ได้
มีปัญหาในการเลื่อนหน้าเว็บเพจ
ถูกบล็อกโดยข้อจำกัด AI/robots.txt ในหลายเว็บไซต์
การหมดเวลาเซสชันขัดจังหวะงานประมวลผลที่ใช้เวลานาน
เข้ากันไม่ได้กับแอป macOS
ไม่สามารถรันหลายเซสชันพร้อมกันได้

ความสำเร็จที่โดดเด่นแสดงศักยภาพในอนาคต

แม้จะมีข้อบกพร่องมากมาย แต่กรณีทดสอบหนึ่งให้ผลลัพธ์ที่ยอดเยี่ยม เมื่อถูกขอให้วิเคราะห์กฎหมายการก่อสร้างสำหรับข้อกำหนดการติดตั้งรั้ว เอเจนต์สร้างการวิเคราะห์ที่แม่นยำและละเอียดพร้อมแผนภาพที่ใช้งานได้ในเวลาเพียงสี่นาที งานนี้ซึ่งก่อนหน้านี้ต้องการการสื่อสารอย่างกว้างขวางกับสำนักงานผังเมือง ได้รับการทำให้เสร็จด้วยการนำเสนอและการจัดระเบียบในระดับมืออาชีพ ความสำเร็จนี้เน้นย้ำถึงศักยภาพของเทคโนโลยีเมื่อทำงานตามที่ตั้งใจไว้

ประสบการณ์ผู้ใช้รู้สึกน่าขนลุกและไม่เป็นธรรมชาติ

พฤติกรรมของเอเจนต์สร้างประสบการณ์การเรียกดูที่น่าขนลุก ด้วยเคอร์เซอร์ที่เหมือนผีเคลื่อนที่ข้ามหน้าจอและการบรรยายบุรุษที่หนึ่งเกี่ยวกับการกระทำของมัน เอเจนต์หลายตัวพร้อมกันกลายเป็นเรื่องที่ท่วมท้นในการติดตาม และการเลียนแบบรูปแบบการเรียกดูเว็บของมนุษย์อย่างกลวงกลายรู้สึกเหมือนการเลียนแบบมากกว่าความเข้าใจที่แท้จริง เอฟเฟกต์ uncanny valley นี้อาจขัดขวางการยอมรับของผู้ใช้แม้ว่าความสามารถทางเทคนิคจะปรับปรุงขึ้น

ผลกระทบต่อตลาดโฆษณาดิจิทัล

การนำ AI เอเจนต์มาใช้อย่างแพร่หลายอาจทำลายโมเดลโฆษณาดิจิทัลอย่างพื้นฐาน เบราว์เซอร์อัตโนมัติเหล่านี้ส่วนใหญ่เพิกเฉยต่อโฆษณาแสดงผลขณะทำงาน ซึ่งอาจลดการเปิดรับโฆษณาของมนุษย์ หากความแม่นยำดีขึ้นและผู้ใช้ไม่จำเป็นต้องติดตามกิจกรรมของเอเจนต์ ตลาดโฆษณาดิจิทัลที่กำลังดิ้นรนอยู่แล้วอาจเผชิญกับความท้าทายเพิ่มเติม เนื่องจากตามนุษย์จะเห็นเนื้อหาส่งเสริมการขายน้อยลง

สถานะปัจจุบันของ ChatGPT Agent ชี้ให้เห็นเทคโนโลยีที่มีศักยภาพสำคัญแต่ยังคงถูกขัดขวางด้วยปัญหาความน่าเชื่อถือและต้นทุนสูง แม้ว่าจะมีแสงแวววาวของความเก่งกาจเป็นครั้งคราวแสดงให้เห็นสิ่งที่เป็นไปได้ แต่ประสิทธิภาพที่ไม่สม่ำเสมอและข้อผิดพลาดที่เกิดขึ้นบ่อยทำให้ยากที่จะแนะนำสำหรับการใช้งานระดับมืออาชีพในขณะนี้

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌