Google ได้ก้าวไปข้างหน้าอย่างมีนัยสำคัญในด้านความสามารถของปัญญาประดิษฐ์ด้วยการเปิดตัวโมเดล Gemini 2.5 Computer Use ซึ่งขณะนี้พร้อมใช้งานในรูปแบบ public preview สำหรับนักพัฒนาแล้ว เทคโนโลยีที่ก้าวล้ำนี้แสดงถึงการเปลี่ยนแปลงพื้นฐานจากผู้ช่วย AI ที่เพียงแค่แนะนำการดำเนินการไปสู่ผู้ช่วยที่สามารถดำเนินงานจริงได้โดยการโต้ตอบกับอินเทอร์เฟซเว็บโดยตรงเหมือนกับที่ผู้ใช้มนุษย์จะทำ
แนวทางปฏิวัติสำหรับการทำงานอัตโนมัติบนเว็บ
โมเดล Gemini 2.5 Computer Use ทำงานผ่านระบบที่ใช้ภาพหน้าจออย่างนวัตกรรมใหม่ที่แตกต่างจากแนวทางแบบเดิมที่พึ่งพา API แทนที่จะต้องการอินเทอร์เฟซข้อมูลที่สะอาดและมีโครงสร้าง โมเดลนี้จะวิเคราะห์ภาพหน้าจอของหน้าเว็บและสร้างการดำเนินการอินเทอร์เฟซผู้ใช้เฉพาะเจาะจงเป็นการตอบสนอง กระบวนการแบบวงจรนี้เกี่ยวข้องกับการส่งภาพหน้าจอพร้อมกับประวัติการดำเนินการล่าสุดไปยังโมเดล รับ function call เช่น คลิก พิมพ์ หรือเลื่อน ดำเนินการเหล่านั้น แล้วทำซ้ำวงจรด้วยภาพหน้าจอใหม่จนกว่างานจะเสร็จสิ้นหรือโปรโตคอลความปลอดภัยจะสั่งหยุด
ความสามารถในการโต้ตอบกับเบราว์เซอร์อย่างครอบคลุม
โมเดลนี้แสดงความหลากหลายที่น่าทึ่งในการนำทางเว็บ สามารถดำเนินการได้สิบสามประเภทที่สะท้อนพฤติกรรมการเรียกดูของมนุษย์ ซึ่งรวมถึงการเปิดหน้าเว็บ การกรอกแบบฟอร์ม การคลิกปุ่ม การเลือกเมนูแบบเลื่อนลง การลากรายการ การเลื่อนดูเนื้อหา และการรักษาบริบทในการโต้ตอบหลายหน้า Google ได้ปรับโมเดลให้เหมาะสมกับสภาพแวดล้อมเบราว์เซอร์เป็นอันดับแรก แม้ว่าการทดสอบเบื้องต้นจะแสดงผลลัพธ์ที่มีแนวโน้มดีในอินเทอร์เฟซผู้ใช้มือถือเช่นกัน
การดำเนินการที่รองรับ: ขณะนี้โมเดลรองรับการดำเนินการ UI ที่แตกต่างกัน 13 ประเภท ได้แก่ การคลิก การพิมพ์ การเลื่อน การวางเมาส์ การเปิดเมนูดรอปดาวน์ การลากรายการ และการนำทางผ่าน URL
ตัวชี้วัดประสิทธิภาพที่เหนือกว่า
ตามการทดสอบภายในของ Google โมเดล Gemini 2.5 Computer Use มีประสิทธิภาพเหนือกว่าโซลูชันคู่แข่งในหลายมาตรฐานอุตสาหกรรม โมเดลนี้นำหน้าในการประเมินการควบคุมเบราว์เซอร์รวมถึง Online-Mind2Web, WebVoyager และ AndroidWorld ในขณะที่รักษาความล่าช้าที่ต่ำกว่าอย่างเห็นได้ชัดในสภาพแวดล้อมการทดสอบของ Browserbase ข้อได้เปรียบด้านประสิทธิภาพนี้มีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น การนำทางแดชบอร์ดบัญชีที่ซับซ้อนหรือการจองการเดินทางที่ความเร็วและความแม่นยำมีความสำคัญ
ประสิทธิภาพการทดสอบมาตรฐาน: นำหน้าในการทดสอบมาตรฐาน Online-Mind2Web , WebVoyager และ AndroidWorld ขณะที่ยังคงรักษาความล่าช้าที่ต่ำกว่าเมื่อเปรียบเทียบกับโซลูชันคู่แข่ง
กรอบความปลอดภัยที่แข็งแกร่ง
Google ได้ใช้มาตรการความปลอดภัยที่ครอบคลุมซึ่งทำหน้าที่เป็นองค์ประกอบหลักมากกว่าการเพิ่มเติมที่เป็นตัวเลือกในระบบ การดำเนินการที่เสนอแต่ละครั้งจะผ่านการตรวจสอบโดยบริการความปลอดภัยเฉพาะก่อนการดำเนินการ ทำให้นักพัฒนาสามารถจำกัดการดำเนินการบางอย่างหรือต้องการการยืนยันจากผู้ใช้อย่างชัดเจนสำหรับงานที่มีความเสี่ยงสูง เช่น ธุรกรรมทางการเงินหรือการดำเนินการที่สำคัญต่อระบบ การป้องกันเหล่านี้ช่วยป้องกันไม่ให้ agent ก่อให้เกิดความเสียหายโดยไม่ตั้งใจในขณะที่รักษาความยืดหยุ่นในการดำเนินงานสำหรับกรณีการใช้งานที่ถูกต้อง
คุณสมบัติด้านความปลอดภัย: การตรวจสอบบริการความปลอดภัยในแต่ละขั้นตอน ข้อจำกัดการดำเนินการที่นักพัฒนาสามารถกำหนดค่าได้ ข้อกำหนดการยืนยันจากผู้ใช้สำหรับงานที่มีความเสี่ยงสูง
การประยุกต์ใช้ในโลกจริงและการรวมระบบ
ทีมงานหลายทีมของ Google กำลังใช้โมเดลนี้ในสภาพแวดล้อมการผลิตแล้ว รวมถึงฟีเจอร์ Search AI Mode, Firebase Testing Agent และโครงการ Project Mariner เทคโนโลยีนี้ช่วยให้สามารถทำงานอัตโนมัติของเวิร์กโฟลว์และเครื่องมือผู้ช่วยที่สามารถทำงานหลังหน้าจอเข้าสู่ระบบที่ API แบบดั้งเดิมไม่มีอยู่ เปิดโอกาสสำหรับการทำงานอัตโนมัติของกระบวนการหลายขั้นตอนที่ซับซ้อนในแพลตฟอร์มเว็บต่างๆ
การเข้าถึงและการใช้งานสำหรับนักพัฒนา
นักพัฒนาสามารถเริ่มทดลองกับโมเดล Gemini 2.5 Computer Use ผ่านแพลตฟอร์ม Google AI Studio และ Vertex AI Google ให้การสนับสนุนอย่างครอบคลุมรวมถึงการสาธิตแบบโฮสต์ผ่าน Browserbase ลูป agent ตัวอย่างสำหรับอ้างอิง และเอกสารประกอบโดยละเอียดสำหรับการใช้งานในเครื่องโดยใช้ Playwright บริษัทเน้นย้ำถึงความสำคัญของการทดสอบอย่างละเอียดก่อนที่จะปรับใช้ agent ในสภาพแวดล้อมการผลิต เนื่องจากธรรมชาติที่ทรงพลังของเทคโนโลยีนี้