โมเดล Gemini 2.5 Computer Use ของ Google ประสบปัญหากับงานพื้นฐาน แม้จะสามารถแก้ CAPTCHA ได้

ทีมชุมชน BigGo
โมเดล Gemini 2.5 Computer Use ของ Google ประสบปัญหากับงานพื้นฐาน แม้จะสามารถแก้ CAPTCHA ได้

Google ได้เปิดตัวโมเดล Gemini 2.5 Computer Use ที่ออกแบบมาเพื่อโต้ตอบกับส่วนติดต่อผู้ใช้ผ่านการจับภาพหน้าจอและการคลิกตามพิกัด แม้ว่าเทคโนโลยีนี้จะเป็นก้าวสำคัญในการทำงานอัตโนมัติด้วย AI แต่การทดสอบเบื้องต้นเผยให้เห็นผลลัพธ์ที่หลากหลาย ซึ่งแสดงให้เห็นทั้งความสามารถที่น่าประทับใจและข้อจำกัดพื้นฐาน

โมเดลนี้ทำงานโดยการวิเคราะห์ภาพหน้าจอของส่วนติดต่อคอมพิวเตอร์และสร้างการกระทำต่างๆ เช่น การคลิกหรือการพิมพ์ในพิกัดเฉพาะ ซึ่งแตกต่างจากเครื่องมือทำงานอัตโนมัติในเบราว์เซอร์อื่นๆ ที่ใช้ข้อมูลที่มีโครงสร้างจากเว็บเพจ วิธีการนี้อาศัยการเข้าใจด้วยภาพเพียงอย่างเดียว คล้ายกับวิธีที่มนุษย์โต้ตอบกับคอมพิวเตอร์

ความสามารถของโมเดล:

  • การปรับแต่งหลัก: เว็บเบราว์เซอร์
  • การสนับสนุนรอง: การควบคุม UI บนมือถือ
  • การสนับสนุนจำกัด: การควบคุมระดับระบบปฏิบัติการเดสก์ท็อป
  • ข้อกำหนดข้อมูลนำเข้า: คำขอของผู้ใช้ ภาพหน้าจอ ประวัติการดำเนินการ
  • ผลลัพธ์: การดำเนินการ UI (การคลิก การพิมพ์) พร้อมคำขอยืนยันจากผู้ใช้เป็นตัวเลือก
ภาพนี้แสดงการทักทายในภาษาต่างๆ ซึ่งสะท้อนการสื่อสารระดับโลก คล้ายกับที่โมเดล Gemini 25 มุ่งหวังที่จะเสริมสร้างการโต้ตอบของผู้ใช้กับส่วนติดต่อที่แตกต่างกัน
ภาพนี้แสดงการทักทายในภาษาต่างๆ ซึ่งสะท้อนการสื่อสารระดับโลก คล้ายกับที่โมเดล Gemini 25 มุ่งหวังที่จะเสริมสร้างการโต้ตอบของผู้ใช้กับส่วนติดต่อที่แตกต่างกัน

ความสำเร็จใน CAPTCHA ปกปิดปัญหาความแม่นยำ

หนึ่งในการสาธิตที่โดดเด่นที่สุดคือโมเดลสามารถแก้ปัญหา reCAPTCHA ของ Google ได้สำเร็จ ผู้ทดสอบรายงานว่าได้เห็น AI นำทางผ่านมาตรการรักษาความปลอดภัยที่ออกแบบมาเพื่อป้องกันระบบอัตโนมัติโดยเฉพาะ อย่างไรก็ตาม ความสามารถที่น่าประทับใจนี้ตัดกันอย่างชัดเจนกับการดิ้นรนในงานการนำทางพื้นฐาน

ข้อเสนอแนะจากชุมชนเผยให้เห็นปัญหาความแม่นยำที่สำคัญในการคลิกแบบง่ายๆ ผู้ใช้รายงานว่าโมเดลใช้เวลาถึง 18 ครั้งในการคลิกลิงก์ความคิดเห็นเพียงลิงก์เดียว โดยแต่ละครั้งจะคลิกพลาดเพียงไม่กี่พิกเซล ปัญหาความแม่นยำนี้ขยายไปถึงการกรอกแบบฟอร์ม ซึ่ง AI มีรายงานว่าเขียนทับข้อมูลที่มีอยู่แล้วขณะพยายามกรอกข้อมูลใหม่ในแอปพลิเคชันอย่าง Google Sheets

ปัญหาด้านประสิทธิภาพที่รายงาน:

  • ต้องใช้ความพยายามสูงสุดถึง 18 ครั้งสำหรับการคลิกเพียงครั้งเดียว
  • ปัญหาความแม่นยำของพิกัด (การคลิกไปตกที่ตำแหน่งเบี่ยงเบนจากเป้าหมายเป็นพิกเซล)
  • การเขียนทับข้อมูลในแอปพลิเคชัน Google Sheets
  • ความเร็วในการประมวลผลช้าในสถานการณ์แบบโต้ตอบ
  • ความยากลำบากในการจัดการหน้าต่างเบราว์เซอร์/แท็บใหม่

ความเร็วและข้อจำกัดในทางปฏิบัติ

ความเร็วในการทำงานของโมเดลกลายเป็นข้อกังวลหลักสำหรับผู้ใช้ที่มีศักยภาพ หลายคนในชุมชนอธิบายว่าวงจรการโต้ตอบช้าอย่างน่าปวดหัว โดยแต่ละการกระทำต้องการการวิเคราะห์ภาพหน้าจอ การตัดสินใจ และการดำเนินการก่อนที่จะไปยังขั้นตอนถัดไป สิ่งนี้สร้างประสบการณ์ผู้ใช้ที่น่าหงุดหงิด ซึ่งงานง่ายๆ ใช้เวลานานกว่าการทำด้วยมือมาก

มันใช้เวลาเกือบ 18 ครั้งในการคลิกลิงก์ความคิดเห็นในการสาธิต HN แต่ละครั้งพลาดไปไม่กี่พิกเซล

โมเดลแสดงให้เห็นความหวังสำหรับงานอัตโนมัติในพื้นหลังที่ความเร็วไม่สำคัญ แต่ระดับประสิทธิภาพปัจจุบันทำให้ไม่เหมาะสมสำหรับความช่วยเหลือแบบเรียลไทม์หรือเวิร์กโฟลว์แบบโต้ตอบ

ความท้าทายในการนำไปใช้ในองค์กร

ผู้ใช้ธุรกิจแสดงความกังวลเกี่ยวกับการใช้งานเทคโนโลยีในสภาพแวดล้อมการผลิตโดยไม่มีการควบคุมการกำกับดูแลที่เหมาะสม ความสามารถของโมเดลในการหลีกเลี่ยงมาตรการรักษาความปลอดภัยอย่าง CAPTCHA ทำให้เกิดคำถามเกี่ยวกับการเข้าถึงระบบหรือข้อมูลที่ถูกจำกัดโดยไม่ตั้งใจ

คุณสมบัติความปลอดภัยที่สร้างขึ้นในระบบรวมถึงบริการความปลอดภัยในแต่ละขั้นตอนและข้อกำหนดการยืนยันจากผู้ใช้สำหรับการกระทำที่มีความเสี่ยงสูง อย่างไรก็ตาม การนำไปใช้ในองค์กรจะต้องมีกรอบความปลอดภัยเพิ่มเติมและกระบวนการอนุมัติก่อนการนำไปใช้อย่างแพร่หลาย

คุณสมบัติด้านความปลอดภัย:

  • บริการความปลอดภัยแบบทีละขั้นตอนสำหรับการประเมินการดำเนินการ
  • คำแนะนำของระบบสำหรับการจัดการการดำเนินการที่มีความเสี่ยงสูง
  • ข้อกำหนดการยืนยันจากผู้ใช้สำหรับการดำเนินงานที่มีความละเอียดอ่อน
  • การฝึกอบรมด้านความปลอดภัยที่ฝังอยู่ในโมเดล
  • การควบคุมความปลอดภัยที่นักพัฒนาสามารถกำหนดค่าได้

การอภิปรายเกี่ยวกับสถาปัตยกรรมทางเทคนิค

ชุมชนยังคงแบ่งแยกเกี่ยวกับแนวทางพื้นฐานของการใช้ภาพหน้าจอเมื่อเทียบกับข้อมูลที่มีโครงสร้าง แม้ว่าการวิเคราะห์ด้วยภาพจะทำงานได้ทั่วไปในแอปพลิเคชันต่างๆ แต่ก็สูญเสียความแม่นยำและประสิทธิภาพที่มีอยู่ผ่านการเข้าถึง API โดยตรงหรือกรอบการเข้าถึง

นักพัฒนาบางคนโต้แย้งว่านี่เป็นแนวทางม้าเครื่องกล - การใช้เทคโนโลยีใหม่เพื่อจำลองวิธีการของมนุษย์แทนที่จะใช้ประโยชน์จากโซลูชันที่เป็นธรรมชาติของคอมพิวเตอร์ที่มีประสิทธิภาพมากกว่า คนอื่นๆ โต้แย้งว่าการโต้ตอบด้วยภาพให้วิธีการสากลเพียงอย่างเดียวสำหรับการทำงานอัตโนมัติของระบบเก่าและแอปพลิเคชันที่ไม่มีการเข้าถึง API

โมเดลปัจจุบันทำงานได้ดีที่สุดกับเว็บเบราว์เซอร์และแสดงศักยภาพสำหรับส่วนติดต่อมือถือ แต่การควบคุมระบบปฏิบัติการเดสก์ท็อปยังไม่ได้รับการปรับปรุง ข้อจำกัดนี้จำกัดประโยชน์ใช้สอยสำหรับการทำงานอัตโนมัติของเวิร์กโฟลว์ที่ครอบคลุมในแพลตฟอร์มต่างๆ

แม้จะมีข้อจำกัดในปัจจุบัน เทคโนโลยีนี้แสดงให้เห็นศักยภาพสำหรับระบบ AI ในการโต้ตอบกับส่วนติดต่อภาพใดๆ เปิดความเป็นไปได้สำหรับการทำงานอัตโนมัติของระบบและเวิร์กโฟลว์ที่ไม่สามารถเข้าถึงได้ก่อนหน้านี้

อ้างอิง: Introducing the Gemini 2.5 Computer Use model