Google ปล่อย Gemini Deep Research Agent เป็นโอเพนซอร์ส อ้างประสิทธิภาพระดับแนวหน้าในราคาเพียงเศษเสี้ยวของ GPT-5 Pro

ทีมบรรณาธิการ BigGo
Google ปล่อย Gemini Deep Research Agent เป็นโอเพนซอร์ส อ้างประสิทธิภาพระดับแนวหน้าในราคาเพียงเศษเสี้ยวของ GPT-5 Pro

ในเชิงกลยุทธ์ที่จับเวลามาพอดีก่อนการเปิดตัวผลิตภัณฑ์สำคัญของคู่แข่งรายใหญ่ Google ได้ขยายขีดความสามารถด้านการวิจัย AI สำหรับนักพัฒนาและผู้บริโภคอย่างมีนัยสำคัญ บริษัทได้เปิดตัว Gemini Deep Research Agent เวอร์ชันใหม่ที่ทรงพลังยิ่งขึ้น ทำให้พร้อมใช้งานสำหรับนักพัฒนา และได้แนะนำมาตรฐานวัดผลและ API ใหม่เพื่อส่งเสริมระบบนิเวศที่กว้างขึ้น ชุดการประกาศนี้เป็นการผลักดันอย่างมุ่งมั่นเพื่อให้การวิจัยอัตโนมัติที่ซับซ้อนกลายเป็นคุณสมบัติหลักที่เข้าถึงได้ง่ายในผลิตภัณฑ์ AI ของตน

มาตรฐานใหม่สำหรับการวิจัยอัตโนมัติ

หัวใจสำคัญของการประกาศของ Google คือการปล่อย DeepSearchQA เป็นโอเพนซอร์ส ซึ่งเป็นมาตรฐานวัดผลใหม่ที่ออกแบบมาเพื่อทดสอบเอเจนต์ AI อย่างเข้มงวดในงานสืบสวนเชิงซ้อนหลายขั้นตอนที่พวกเขาถูกสร้างขึ้นมาเพื่อจัดการมากขึ้นเรื่อยๆ ต่างจากมาตรฐานวัดผลแบบง่ายที่เน้นข้อเท็จจริง DeepSearchQA ประเมิน "ความครอบคลุม" ของเอเจนต์ ซึ่งคือความสามารถในการดำเนินการสืบสวนอย่างละเอียดถี่ถ้วนโดยการกำหนดคำค้นหาตามลำดับ วิเคราะห์ผลลัพธ์ ระบุช่องว่างของความรู้ และทำซ้ำ มาตรฐานนี้ประกอบด้วยงาน "สายโซ่เหตุผล" จำนวน 900 งานที่สร้างขึ้นด้วยมือ ครอบคลุม 17 โดเมนที่หลากหลาย ตั้งแต่วิทยาศาสตร์ไปจนถึงการเงิน การทดสอบภายในของ Google เผยให้เห็นความสัมพันธ์ที่ชัดเจน: การอนุญาตให้เอเจนต์มีขั้นตอนการค้นหาและการให้เหตุผลมากขึ้นภายในกรอบนี้ ส่งผลให้ประสิทธิภาพดีขึ้นอย่างมีนัยสำคัญ ซึ่งยืนยันประโยชน์ของมาตรฐานนี้สำหรับการวัดประสิทธิภาพของ "เวลาในการคิด"

รายละเอียดเบื้องลึกของ DeepSearchQA Benchmark:

  • วัตถุประสงค์: ประเมินความสามารถในการวิจัยข้อมูลบนเว็บแบบรอบด้านและหลายขั้นตอน (ไม่ใช่เพียงการจำข้อเท็จจริง)
  • ขนาด: งานที่ออกแบบด้วยมือจำนวน 900 งาน
  • โครงสร้าง: งานแบบ "สายโซ่เหตุผล" ซึ่งแต่ละขั้นตอนขึ้นอยู่กับการวิเคราะห์ในขั้นก่อนหน้า
  • ขอบเขต: ครอบคลุม 17 โดเมนที่แตกต่างกัน
  • ข้อค้นพบสำคัญ: ประสิทธิภาพของ Agent ดีขึ้นอย่างมีนัยสำคัญเมื่อได้รับอนุญาตให้ใช้ขั้นตอนการค้นหา/การให้เหตุผลมากขึ้น ("เวลาคิด")

Gemini Deep Research Agent: พลังและความแม่นยำ

ผู้ที่ได้รับประโยชน์หลักจากสนามทดสอบใหม่นี้คือ Gemini Deep Research Agent ที่ได้รับการปรับปรุงแล้ว สร้างขึ้นบนโมเดล Gemini 3 Pro เอเจนต์นี้ถูกออกแบบมาโดยเฉพาะสำหรับการสังเคราะห์บริบทยาวและการรวบรวมข้อมูลที่ซับซ้อน การทำงานหลักของมันคือวงวนอัตโนมัติแบบวนซ้ำ: มันรับพรอมต์ กำหนดคำค้นหา อ่านผลลัพธ์ ระบุข้อมูลที่ขาดหายไป และค้นหาอีกครั้ง เวอร์ชันล่าสุดอัพเกรดครั้งใหญ่ รวมถึงความสามารถในการค้นหาเว็บที่ทรงพลังยิ่งขึ้นซึ่งช่วยให้มันเจาะลึกเข้าไปในเว็บไซต์เฉพาะเพื่อหาข้อมูล และการปรับให้เหมาะสมสำหรับการสร้างรายงานวิจัยโดยละเอียดด้วยต้นทุนการคำนวณที่ต่ำลง

Google อ้างว่าเอเจนต์นี้ได้ผลลัพธ์ระดับแนวหน้า (SOTA) ในการทดสอบ Humanity's Last Exam (HLE) แบบเต็ม ได้คะแนน 46.4% ซึ่งทำได้ดีกว่าโมเดลฐาน Gemini 3 Pro (43.2%) และ GPT-5 Pro ของ OpenAI (38.9%) บางทีสิ่งที่สะดุดตามากกว่าคือการอ้างเรื่องต้นทุนโดย Lukas Haas ผู้จัดการผลิตภัณฑ์ของ Google DeepMind เขาระบุในโซเชียลมีเดียว่าเอเจนต์ใหม่นี้ทำงานได้เทียบเคียงกับ GPT-5 Pro ในมาตรฐานวัดผล BrowseComp แต่ด้วยต้นทุนประมาณหนึ่งในสิบ ซึ่งอาจเป็นตัวเปลี่ยนเกมสำหรับนักพัฒนาและองค์กรที่ต้องการขยายการวิจัยด้วย AI

เกณฑ์มาตรฐานประสิทธิภาพ (รายงานโดย Google):

  • การทดสอบ Humanity's Last Exam (HLE) แบบเต็ม:
    • Gemini Deep Research Agent: 46.4%
    • Gemini 3 Pro (โมเดลพื้นฐาน): 43.2%
    • GPT-5 Pro: 38.9%
  • เกณฑ์มาตรฐาน BrowseComp: ประสิทธิภาพถูกอธิบายว่า "เทียบเคียงได้" กับ GPT-5 Pro
  • ข้อเรียกร้องด้านต้นทุน: Google ระบุว่า Gemini Deep Research Agent ดำเนินงานด้วยต้นทุนประมาณ 1 ใน 10 ของ GPT-5 Pro สำหรับประสิทธิภาพที่เทียบเคียงได้ในงานอย่างเช่น BrowseComp

เปิดประตูให้นักพัฒนา

เพื่อแปลงความสามารถขั้นสูงนี้ให้เป็นการใช้งานจริง Google กำลังเปิดตัวเครื่องมือสำคัญสองอย่างสำหรับนักพัฒนา อย่างแรก Gemini Deep Research Agent เองกำลังถูกทำให้พร้อมใช้งานสำหรับนักพัฒนาเพื่อการผสานรวม อย่างที่สอง และสำคัญคือ Google กำลังแนะนำ Interactions API ใหม่ API นี้ทำหน้าที่เป็นอินเทอร์เฟซแบบรวมสำหรับการโต้ตอบกับทั้งโมเดล Gemini และเอเจนต์ต่างๆ เช่น Deep Research มันถูกออกแบบมาโดยเฉพาะสำหรับการสร้างแอปพลิเคชันแบบเอเจนต์ จัดการบริบทที่ซับซ้อน เช่น ข้อความแบบสลับกัน การให้เหตุผลแบบสายโซ่ และการเรียกใช้เครื่องมือฝั่งเซิร์ฟเวอร์ ซึ่งช่วยลดความซับซ้อนและข้อผิดพลาดที่อาจเกิดขึ้นฝั่งไคลเอ็นต์ API นี้ยังแนะนำการรองรับ Model Context Protocol (MCP) ซึ่งช่วยให้โมเดลสามารถเรียกใช้เครื่องมือจากเซิร์ฟเวอร์ MCP ภายนอกได้โดยตรง ขยายการเชื่อมต่อกับแหล่งข้อมูลที่กำหนดเองได้อย่างมีนัยสำคัญ

เครื่องมือสำหรับนักพัฒนาใหม่:

  • Interactions API: ปลายทาง RESTful แบบรวมศูนย์สำหรับการโต้ตอบกับโมเดลและเอเจนต์ Gemini
    • คุณสมบัติ: การจัดการสถานะฝั่งเซิร์ฟเวอร์ การทำงานในพื้นหลังสำหรับงานที่ใช้เวลานาน การสนับสนุนเครื่องมือ MCP ระยะไกล
    • ความพร้อมใช้งาน: อยู่ในช่วงเบต้าสาธารณะผ่าน Gemini API ของ Google AI Studio
  • ความพร้อมใช้งาน: Deep Research Agent (deep-research-pro-preview-12-2025) ขณะนี้พร้อมให้บริการแก่นักพัฒนาผ่าน API ใหม่นี้แล้ว

การใช้งานปัจจุบันและแผนงานในอนาคต

Gemini Deep Research Agent ไม่ใช่คำสัญญาในอนาคต แต่เป็นเครื่องมือในปัจจุบัน มันกำลังถูกทดสอบใช้ในสาขาที่มีความสำคัญสูงและต้องการความแม่นยำ เช่น บริการทางการเงินสำหรับการตรวจสอบความถูกต้องด้านกฎหมาย (due diligence) เทคโนโลยีชีวภาพสำหรับการทบทวนวรรณกรรมด้านความปลอดภัยของยา และการวิจัยตลาด สำหรับนักพัฒนา มันเสนอคุณสมบัติต่างๆ เช่น การสังเคราะห์เอกสารที่อัปโหลดและข้อมูลเว็บแบบรวม การควบคุมโครงสร้างรายงาน การอ้างอิงแหล่งที่มาอย่างละเอียด และผลลัพธ์ JSON เพื่อการแยกวิเคราะห์ที่ง่าย

มองไปข้างหน้า แผนงานของ Google มุ่งเน้นไปที่การขยายและปรับปรุง Gemini Deep Research Agent จะถูกผสานรวมเข้ากับผลิตภัณฑ์สำหรับผู้บริโภค เช่น แอป Gemini หลัก Google Search และ NotebookLM ในไม่ช้า สำหรับภาคองค์กร Google วางแผนที่จะนำมันมาสู่แพลตฟอร์ม Vertex AI การอัปเดตในอนาคตสัญญาผลลัพธ์ที่สมบูรณ์ยิ่งขึ้น รวมถึงแผนภูมิที่สร้างขึ้นมาเองสำหรับรายงานภาพ และการปรับปรุงเฟรมเวิร์ก MCP อย่างต่อเนื่องเพื่อการเชื่อมต่อข้อมูลที่ราบรื่น ด้วยการเคลื่อนไหวเหล่านี้ Google ไม่เพียงแค่ปล่อยเอเจนต์ทรงพลัง แต่กำลังสร้างโครงสร้างพื้นฐานเพื่อให้การวิจัย AI ที่ซับซ้อนกลายเป็นส่วนประกอบมาตรฐานของชุดเครื่องมือดิจิทัล