Google ได้เปิดตัวโมเดล Gemini 2.5 Computer Use ที่ออกแบบมาเพื่อโต้ตอบกับส่วนติดต่อผู้ใช้ผ่านการจับภาพหน้าจอและการคลิกตามพิกัด แม้ว่าเทคโนโลยีนี้จะเป็นก้าวสำคัญในการทำงานอัตโนมัติด้วย AI แต่การทดสอบเบื้องต้นเผยให้เห็นผลลัพธ์ที่หลากหลาย ซึ่งแสดงให้เห็นทั้งความสามารถที่น่าประทับใจและข้อจำกัดพื้นฐาน
โมเดลนี้ทำงานโดยการวิเคราะห์ภาพหน้าจอของส่วนติดต่อคอมพิวเตอร์และสร้างการกระทำต่างๆ เช่น การคลิกหรือการพิมพ์ในพิกัดเฉพาะ ซึ่งแตกต่างจากเครื่องมือทำงานอัตโนมัติในเบราว์เซอร์อื่นๆ ที่ใช้ข้อมูลที่มีโครงสร้างจากเว็บเพจ วิธีการนี้อาศัยการเข้าใจด้วยภาพเพียงอย่างเดียว คล้ายกับวิธีที่มนุษย์โต้ตอบกับคอมพิวเตอร์
ความสามารถของโมเดล:
- การปรับแต่งหลัก: เว็บเบราว์เซอร์
- การสนับสนุนรอง: การควบคุม UI บนมือถือ
- การสนับสนุนจำกัด: การควบคุมระดับระบบปฏิบัติการเดสก์ท็อป
- ข้อกำหนดข้อมูลนำเข้า: คำขอของผู้ใช้ ภาพหน้าจอ ประวัติการดำเนินการ
- ผลลัพธ์: การดำเนินการ UI (การคลิก การพิมพ์) พร้อมคำขอยืนยันจากผู้ใช้เป็นตัวเลือก
![]() |
---|
ภาพนี้แสดงการทักทายในภาษาต่างๆ ซึ่งสะท้อนการสื่อสารระดับโลก คล้ายกับที่โมเดล Gemini 25 มุ่งหวังที่จะเสริมสร้างการโต้ตอบของผู้ใช้กับส่วนติดต่อที่แตกต่างกัน |
ความสำเร็จใน CAPTCHA ปกปิดปัญหาความแม่นยำ
หนึ่งในการสาธิตที่โดดเด่นที่สุดคือโมเดลสามารถแก้ปัญหา reCAPTCHA ของ Google ได้สำเร็จ ผู้ทดสอบรายงานว่าได้เห็น AI นำทางผ่านมาตรการรักษาความปลอดภัยที่ออกแบบมาเพื่อป้องกันระบบอัตโนมัติโดยเฉพาะ อย่างไรก็ตาม ความสามารถที่น่าประทับใจนี้ตัดกันอย่างชัดเจนกับการดิ้นรนในงานการนำทางพื้นฐาน
ข้อเสนอแนะจากชุมชนเผยให้เห็นปัญหาความแม่นยำที่สำคัญในการคลิกแบบง่ายๆ ผู้ใช้รายงานว่าโมเดลใช้เวลาถึง 18 ครั้งในการคลิกลิงก์ความคิดเห็นเพียงลิงก์เดียว โดยแต่ละครั้งจะคลิกพลาดเพียงไม่กี่พิกเซล ปัญหาความแม่นยำนี้ขยายไปถึงการกรอกแบบฟอร์ม ซึ่ง AI มีรายงานว่าเขียนทับข้อมูลที่มีอยู่แล้วขณะพยายามกรอกข้อมูลใหม่ในแอปพลิเคชันอย่าง Google Sheets
ปัญหาด้านประสิทธิภาพที่รายงาน:
- ต้องใช้ความพยายามสูงสุดถึง 18 ครั้งสำหรับการคลิกเพียงครั้งเดียว
- ปัญหาความแม่นยำของพิกัด (การคลิกไปตกที่ตำแหน่งเบี่ยงเบนจากเป้าหมายเป็นพิกเซล)
- การเขียนทับข้อมูลในแอปพลิเคชัน Google Sheets
- ความเร็วในการประมวลผลช้าในสถานการณ์แบบโต้ตอบ
- ความยากลำบากในการจัดการหน้าต่างเบราว์เซอร์/แท็บใหม่
ความเร็วและข้อจำกัดในทางปฏิบัติ
ความเร็วในการทำงานของโมเดลกลายเป็นข้อกังวลหลักสำหรับผู้ใช้ที่มีศักยภาพ หลายคนในชุมชนอธิบายว่าวงจรการโต้ตอบช้าอย่างน่าปวดหัว โดยแต่ละการกระทำต้องการการวิเคราะห์ภาพหน้าจอ การตัดสินใจ และการดำเนินการก่อนที่จะไปยังขั้นตอนถัดไป สิ่งนี้สร้างประสบการณ์ผู้ใช้ที่น่าหงุดหงิด ซึ่งงานง่ายๆ ใช้เวลานานกว่าการทำด้วยมือมาก
มันใช้เวลาเกือบ 18 ครั้งในการคลิกลิงก์ความคิดเห็นในการสาธิต HN แต่ละครั้งพลาดไปไม่กี่พิกเซล
โมเดลแสดงให้เห็นความหวังสำหรับงานอัตโนมัติในพื้นหลังที่ความเร็วไม่สำคัญ แต่ระดับประสิทธิภาพปัจจุบันทำให้ไม่เหมาะสมสำหรับความช่วยเหลือแบบเรียลไทม์หรือเวิร์กโฟลว์แบบโต้ตอบ
ความท้าทายในการนำไปใช้ในองค์กร
ผู้ใช้ธุรกิจแสดงความกังวลเกี่ยวกับการใช้งานเทคโนโลยีในสภาพแวดล้อมการผลิตโดยไม่มีการควบคุมการกำกับดูแลที่เหมาะสม ความสามารถของโมเดลในการหลีกเลี่ยงมาตรการรักษาความปลอดภัยอย่าง CAPTCHA ทำให้เกิดคำถามเกี่ยวกับการเข้าถึงระบบหรือข้อมูลที่ถูกจำกัดโดยไม่ตั้งใจ
คุณสมบัติความปลอดภัยที่สร้างขึ้นในระบบรวมถึงบริการความปลอดภัยในแต่ละขั้นตอนและข้อกำหนดการยืนยันจากผู้ใช้สำหรับการกระทำที่มีความเสี่ยงสูง อย่างไรก็ตาม การนำไปใช้ในองค์กรจะต้องมีกรอบความปลอดภัยเพิ่มเติมและกระบวนการอนุมัติก่อนการนำไปใช้อย่างแพร่หลาย
คุณสมบัติด้านความปลอดภัย:
- บริการความปลอดภัยแบบทีละขั้นตอนสำหรับการประเมินการดำเนินการ
- คำแนะนำของระบบสำหรับการจัดการการดำเนินการที่มีความเสี่ยงสูง
- ข้อกำหนดการยืนยันจากผู้ใช้สำหรับการดำเนินงานที่มีความละเอียดอ่อน
- การฝึกอบรมด้านความปลอดภัยที่ฝังอยู่ในโมเดล
- การควบคุมความปลอดภัยที่นักพัฒนาสามารถกำหนดค่าได้
การอภิปรายเกี่ยวกับสถาปัตยกรรมทางเทคนิค
ชุมชนยังคงแบ่งแยกเกี่ยวกับแนวทางพื้นฐานของการใช้ภาพหน้าจอเมื่อเทียบกับข้อมูลที่มีโครงสร้าง แม้ว่าการวิเคราะห์ด้วยภาพจะทำงานได้ทั่วไปในแอปพลิเคชันต่างๆ แต่ก็สูญเสียความแม่นยำและประสิทธิภาพที่มีอยู่ผ่านการเข้าถึง API โดยตรงหรือกรอบการเข้าถึง
นักพัฒนาบางคนโต้แย้งว่านี่เป็นแนวทางม้าเครื่องกล - การใช้เทคโนโลยีใหม่เพื่อจำลองวิธีการของมนุษย์แทนที่จะใช้ประโยชน์จากโซลูชันที่เป็นธรรมชาติของคอมพิวเตอร์ที่มีประสิทธิภาพมากกว่า คนอื่นๆ โต้แย้งว่าการโต้ตอบด้วยภาพให้วิธีการสากลเพียงอย่างเดียวสำหรับการทำงานอัตโนมัติของระบบเก่าและแอปพลิเคชันที่ไม่มีการเข้าถึง API
โมเดลปัจจุบันทำงานได้ดีที่สุดกับเว็บเบราว์เซอร์และแสดงศักยภาพสำหรับส่วนติดต่อมือถือ แต่การควบคุมระบบปฏิบัติการเดสก์ท็อปยังไม่ได้รับการปรับปรุง ข้อจำกัดนี้จำกัดประโยชน์ใช้สอยสำหรับการทำงานอัตโนมัติของเวิร์กโฟลว์ที่ครอบคลุมในแพลตฟอร์มต่างๆ
แม้จะมีข้อจำกัดในปัจจุบัน เทคโนโลยีนี้แสดงให้เห็นศักยภาพสำหรับระบบ AI ในการโต้ตอบกับส่วนติดต่อภาพใดๆ เปิดความเป็นไปได้สำหรับการทำงานอัตโนมัติของระบบและเวิร์กโฟลว์ที่ไม่สามารถเข้าถึงได้ก่อนหน้านี้