โมเดล Gemini 2.5 Computer Use ของ Google นำการเรียกดูเว็บแบบมนุษย์มาสู่ AI Agent

ทีมบรรณาธิการ BigGo
โมเดล Gemini 2.5 Computer Use ของ Google นำการเรียกดูเว็บแบบมนุษย์มาสู่ AI Agent

Google ได้ก้าวไปข้างหน้าอย่างมีนัยสำคัญในด้านความสามารถของปัญญาประดิษฐ์ด้วยการเปิดตัวโมเดล Gemini 2.5 Computer Use ซึ่งขณะนี้พร้อมใช้งานในรูปแบบ public preview สำหรับนักพัฒนาแล้ว เทคโนโลยีที่ก้าวล้ำนี้แสดงถึงการเปลี่ยนแปลงพื้นฐานจากผู้ช่วย AI ที่เพียงแค่แนะนำการดำเนินการไปสู่ผู้ช่วยที่สามารถดำเนินงานจริงได้โดยการโต้ตอบกับอินเทอร์เฟซเว็บโดยตรงเหมือนกับที่ผู้ใช้มนุษย์จะทำ

แนวทางปฏิวัติสำหรับการทำงานอัตโนมัติบนเว็บ

โมเดล Gemini 2.5 Computer Use ทำงานผ่านระบบที่ใช้ภาพหน้าจออย่างนวัตกรรมใหม่ที่แตกต่างจากแนวทางแบบเดิมที่พึ่งพา API แทนที่จะต้องการอินเทอร์เฟซข้อมูลที่สะอาดและมีโครงสร้าง โมเดลนี้จะวิเคราะห์ภาพหน้าจอของหน้าเว็บและสร้างการดำเนินการอินเทอร์เฟซผู้ใช้เฉพาะเจาะจงเป็นการตอบสนอง กระบวนการแบบวงจรนี้เกี่ยวข้องกับการส่งภาพหน้าจอพร้อมกับประวัติการดำเนินการล่าสุดไปยังโมเดล รับ function call เช่น คลิก พิมพ์ หรือเลื่อน ดำเนินการเหล่านั้น แล้วทำซ้ำวงจรด้วยภาพหน้าจอใหม่จนกว่างานจะเสร็จสิ้นหรือโปรโตคอลความปลอดภัยจะสั่งหยุด

ความสามารถในการโต้ตอบกับเบราว์เซอร์อย่างครอบคลุม

โมเดลนี้แสดงความหลากหลายที่น่าทึ่งในการนำทางเว็บ สามารถดำเนินการได้สิบสามประเภทที่สะท้อนพฤติกรรมการเรียกดูของมนุษย์ ซึ่งรวมถึงการเปิดหน้าเว็บ การกรอกแบบฟอร์ม การคลิกปุ่ม การเลือกเมนูแบบเลื่อนลง การลากรายการ การเลื่อนดูเนื้อหา และการรักษาบริบทในการโต้ตอบหลายหน้า Google ได้ปรับโมเดลให้เหมาะสมกับสภาพแวดล้อมเบราว์เซอร์เป็นอันดับแรก แม้ว่าการทดสอบเบื้องต้นจะแสดงผลลัพธ์ที่มีแนวโน้มดีในอินเทอร์เฟซผู้ใช้มือถือเช่นกัน

การดำเนินการที่รองรับ: ขณะนี้โมเดลรองรับการดำเนินการ UI ที่แตกต่างกัน 13 ประเภท ได้แก่ การคลิก การพิมพ์ การเลื่อน การวางเมาส์ การเปิดเมนูดรอปดาวน์ การลากรายการ และการนำทางผ่าน URL

ตัวชี้วัดประสิทธิภาพที่เหนือกว่า

ตามการทดสอบภายในของ Google โมเดล Gemini 2.5 Computer Use มีประสิทธิภาพเหนือกว่าโซลูชันคู่แข่งในหลายมาตรฐานอุตสาหกรรม โมเดลนี้นำหน้าในการประเมินการควบคุมเบราว์เซอร์รวมถึง Online-Mind2Web, WebVoyager และ AndroidWorld ในขณะที่รักษาความล่าช้าที่ต่ำกว่าอย่างเห็นได้ชัดในสภาพแวดล้อมการทดสอบของ Browserbase ข้อได้เปรียบด้านประสิทธิภาพนี้มีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น การนำทางแดชบอร์ดบัญชีที่ซับซ้อนหรือการจองการเดินทางที่ความเร็วและความแม่นยำมีความสำคัญ

ประสิทธิภาพการทดสอบมาตรฐาน: นำหน้าในการทดสอบมาตรฐาน Online-Mind2Web , WebVoyager และ AndroidWorld ขณะที่ยังคงรักษาความล่าช้าที่ต่ำกว่าเมื่อเปรียบเทียบกับโซลูชันคู่แข่ง

กรอบความปลอดภัยที่แข็งแกร่ง

Google ได้ใช้มาตรการความปลอดภัยที่ครอบคลุมซึ่งทำหน้าที่เป็นองค์ประกอบหลักมากกว่าการเพิ่มเติมที่เป็นตัวเลือกในระบบ การดำเนินการที่เสนอแต่ละครั้งจะผ่านการตรวจสอบโดยบริการความปลอดภัยเฉพาะก่อนการดำเนินการ ทำให้นักพัฒนาสามารถจำกัดการดำเนินการบางอย่างหรือต้องการการยืนยันจากผู้ใช้อย่างชัดเจนสำหรับงานที่มีความเสี่ยงสูง เช่น ธุรกรรมทางการเงินหรือการดำเนินการที่สำคัญต่อระบบ การป้องกันเหล่านี้ช่วยป้องกันไม่ให้ agent ก่อให้เกิดความเสียหายโดยไม่ตั้งใจในขณะที่รักษาความยืดหยุ่นในการดำเนินงานสำหรับกรณีการใช้งานที่ถูกต้อง

คุณสมบัติด้านความปลอดภัย: การตรวจสอบบริการความปลอดภัยในแต่ละขั้นตอน ข้อจำกัดการดำเนินการที่นักพัฒนาสามารถกำหนดค่าได้ ข้อกำหนดการยืนยันจากผู้ใช้สำหรับงานที่มีความเสี่ยงสูง

การประยุกต์ใช้ในโลกจริงและการรวมระบบ

ทีมงานหลายทีมของ Google กำลังใช้โมเดลนี้ในสภาพแวดล้อมการผลิตแล้ว รวมถึงฟีเจอร์ Search AI Mode, Firebase Testing Agent และโครงการ Project Mariner เทคโนโลยีนี้ช่วยให้สามารถทำงานอัตโนมัติของเวิร์กโฟลว์และเครื่องมือผู้ช่วยที่สามารถทำงานหลังหน้าจอเข้าสู่ระบบที่ API แบบดั้งเดิมไม่มีอยู่ เปิดโอกาสสำหรับการทำงานอัตโนมัติของกระบวนการหลายขั้นตอนที่ซับซ้อนในแพลตฟอร์มเว็บต่างๆ

การเข้าถึงและการใช้งานสำหรับนักพัฒนา

นักพัฒนาสามารถเริ่มทดลองกับโมเดล Gemini 2.5 Computer Use ผ่านแพลตฟอร์ม Google AI Studio และ Vertex AI Google ให้การสนับสนุนอย่างครอบคลุมรวมถึงการสาธิตแบบโฮสต์ผ่าน Browserbase ลูป agent ตัวอย่างสำหรับอ้างอิง และเอกสารประกอบโดยละเอียดสำหรับการใช้งานในเครื่องโดยใช้ Playwright บริษัทเน้นย้ำถึงความสำคัญของการทดสอบอย่างละเอียดก่อนที่จะปรับใช้ agent ในสภาพแวดล้อมการผลิต เนื่องจากธรรมชาติที่ทรงพลังของเทคโนโลยีนี้