Google ปรับปรุง Gemini AI ด้วยเครื่องมือทำเครื่องหมายภาพใหม่ เพิ่มความแม่นยำในการโต้ตอบ

ทีมบรรณาธิการ BigGo
Google ปรับปรุง Gemini AI ด้วยเครื่องมือทำเครื่องหมายภาพใหม่ เพิ่มความแม่นยำในการโต้ตอบ

Google กำลังทยอยเปิดตัวอัปเกรดสำคัญให้กับผู้ช่วย AI Gemini ของตนอย่างเงียบๆ โดยมีเป้าหมายเพื่อแก้ปัญหาความยุ่งยากที่พบบ่อยในการโต้ตอบระหว่างมนุษย์กับ AI นั่นคือการเดา สำหรับผู้ใช้ที่พยายามจะแก้ไขหรือวิเคราะห์ภาพ การสื่อสารความต้องการอย่างแม่นยำผ่านข้อความเพียงอย่างเดียวอาจเป็นเรื่องท้าทาย ชุดเครื่องมือทำเครื่องหมายภาพใหม่ ซึ่งเริ่มปรากฏให้ผู้ใช้บางส่วนได้เห็นแล้ว สัญญาว่าจะเชื่อมช่องว่างนี้โดยให้คุณวาดลงบนภาพถ่ายโดยตรงเพื่อชี้นำการกระทำของ Gemini ทำให้ก้าวข้ามการป้อนคำสั่งที่คลุมเครือไปสู่การสั่งการด้วยภาพที่เจาะจงจุดได้

ปัญหาของการป้อนคำสั่งด้วยข้อความเพียงอย่างเดียว

จนถึงตอนนี้ การโต้ตอบกับ Gemini เกี่ยวกับภาพจำเป็นต้องใช้คำอธิบายที่เป็นข้อความที่คิดมาอย่างดี หากภาพถ่ายมีหลายหัวข้อหรือรายละเอียดซับซ้อน ผู้ใช้ต้องพึ่งพา AI ที่จะตีความวลีเช่น "อาคารทางซ้าย" หรือ "เสื้อสีแดง" ได้อย่างถูกต้อง ซึ่งบ่อยครั้งนำไปสู่ความเข้าใจผิด โดย Gemini อาจโฟกัสไปที่องค์ประกอบผิดส่วน หรือทำการเปลี่ยนแปลงที่กว้างเกินไปและไม่ต้องการกับภาพทั้งภาพ กระบวนการนี้ให้ความรู้สึกเหมือนการทำงานร่วมกันน้อยลง แต่กลับเหมือนกับการหวังว่า AI จะเดาถูก ซึ่งเป็นข้อจำกัดที่เห็นได้ชัดเจนมากขึ้นเมื่อความสามารถในการแก้ไขภาพด้วย AI มีพลังมากขึ้น

เปิดตัวการชี้นำด้วยภาพผ่านเครื่องมือทำเครื่องหมาย

ฟีเจอร์ใหม่นี้แนะนำอินเทอร์เฟซการทำเครื่องหมายที่ตรงไปตรงมา ซึ่งจะปรากฏขึ้นเมื่อแนบภาพใน Gemini ผู้ใช้สามารถวงกลม เน้นเส้นขอบ วาดลูกศร หรือเพิ่มโน้ตข้อความลงบนภาพโดยตรงได้แล้ว บริบทภาพนี้จะถูก Gemini นำไปใช้เพื่อทำความเข้าใจว่าผู้ใช้กำลังอ้างอิงถึงส่วนใดของภาพพอดี ตัวอย่างเช่น แทนที่จะเขียนว่า "เปลี่ยนสีรถ" ผู้ใช้สามารถวาดวงกลมรอบรถและพิมพ์ว่า "ทำให้เป็นสีน้ำเงิน" ได้ง่ายๆ ลูปการตอบรับด้วยภาพโดยตรงนี้ถูกออกแบบมาเพื่อให้การโต้ตอบเป็นไปอย่างง่ายดายและแม่นยำมากขึ้น ลดความจำเป็นในการป้อนคำสั่งบรรยายที่ยาวเหยียด

เครื่องมือทำเครื่องหมายหลัก (อ้างอิงจากรายงาน):

  • เครื่องมือวาด/ขีดเขียน: ใช้เพื่อวงกลม เน้น หรือวาดลูกศรบนบริเวณเฉพาะของภาพ เพื่อให้บริบทสำหรับการแก้ไขหรือคำถาม
  • เครื่องมือข้อความ (ไอคอน T): อนุญาตให้เพิ่มคำอธิบายประกอบข้อความลงบนภาพโดยตรง ความสามารถเต็มรูปแบบและการผสานรวมกับคำสั่งแก้ไขดูเหมือนจะอยู่ระหว่างการพัฒนา

ความสามารถสองด้านสำหรับการวิเคราะห์และการแก้ไข

เครื่องมือทำเครื่องหมายทำหน้าที่สองประการ คือเพิ่มประสิทธิภาพทั้งการวิเคราะห์ภาพและการแก้ไขเชิงสร้างสรรค์ สำหรับงานวิเคราะห์ ผู้ใช้สามารถเน้นวัตถุเฉพาะในฝูงชนหรือรายละเอียดในทิวทัศน์และถามว่า "นี่คืออะไร" ซึ่งให้ระดับความเจาะจงที่คล้ายกับฟีเจอร์อย่าง Circle to Search สำหรับการแก้ไข เครื่องมือเหล่านี้ให้การควบคุมที่ไม่เคยมีมาก่อน ผู้ใช้สามารถร่างตำแหน่งที่ควรวางองค์ประกอบใหม่ หรือทำเครื่องหมายบริเวณที่ต้องการเปลี่ยนแปลงได้อย่างแม่นยำ ซึ่งในทางทฤษฎีแล้วจะช่วยให้สามารถแก้ไขที่ซับซ้อนและเจาะจงพื้นที่ได้โดยไม่ส่งผลต่อองค์ประกอบส่วนอื่นของภาพ ซึ่งเป็นงานที่ก่อนหน้านี้จำเป็นต้องใช้ซอฟต์แวร์ระดับมืออาชีพอย่าง Photoshop

กรณีการใช้งานหลักที่รองรับ:

  1. การแก้ไขแบบแม่นยำ: ทำเครื่องหมายบริเวณ (เช่น เสื้อเชิ้ต) และอธิบายการเปลี่ยนแปลง (เช่น "ทำให้เป็นสีน้ำเงิน")
  2. การเพิ่มองค์ประกอบแบบเจาะจง: วาดตำแหน่งที่ต้องการให้วางองค์ประกอบใหม่ (เช่น มังกรการ์ตูน)
  3. การวิเคราะห์แบบโฟกัส: วงกลมรอบวัตถุหรือบุคคลและถามว่า "นี่คืออะไร?" หรือ "คนนี้คือใคร?"

การเปิดตัวแบบค่อยเป็นค่อยไปและเงียบๆ

ณ กลางเดือนธันวาคม 2025 ฟีเจอร์นี้ยังไม่พร้อมให้ใช้งานอย่างแพร่หลาย ดูเหมือนว่าจะเป็นการทดสอบฝั่งเซิร์ฟเวอร์ ซึ่งหมายความว่าการเข้าถึงจะถูกเปิดให้ทีละน้อยโดยเซิร์ฟเวอร์ของ Google แทนที่จะผ่านการอัปเดตแอปเฉพาะ Google ยังไม่ได้ประกาศอย่างเป็นทางการ ซึ่งบ่งชี้ว่าบริษัทมีแนวโน้มที่จะรวบรวมความคิดเห็นจากผู้ใช้และปรับแต่งเครื่องมือก่อนการเปิดตัวในวงกว้าง แนวทางที่ระมัดระวังนี้เป็นเรื่องปกติสำหรับฟีเจอร์ AI ที่เกี่ยวข้องกับการโต้ตอบกับผู้ใช้ที่มีความละเอียดอ่อน

รายงานความพร้อมใช้งานและการเปิดตัวฟีเจอร์:

  • สถานะ: จำกัด, การเปิดตัวแบบฝั่งเซิร์ฟเวอร์ (ช่วงทดสอบ)
  • การเปิดใช้งาน: ไม่รับประกันโดยการอัปเดตแอป; อาจต้องรีสตาร์ท/รีเฟรชแอป
  • ประกาศอย่างเป็นทางการ: ยังไม่มี ณ วันที่ 18 ธันวาคม 2025

การทดสอบเบื้องต้นแสดงให้เห็นถึงความหวังและพื้นที่สำหรับการเติบโต

ประสบการณ์การใช้งานจริงเบื้องต้นกับเครื่องมือเหล่านี้ ตามที่รายงานโดยสื่อด้านเทคโนโลยี เผยให้เห็นฟีเจอร์ที่มีศักยภาพสูงแต่ยังคงอยู่ในช่วงกำลังพัฒนา ในการทดสอบหนึ่ง การขอให้ Gemini เพิ่มอาคารที่สร้างขึ้นใหม่ถัดจากอาคารที่มีอยู่ ส่งผลให้ AI เขียนทับโครงสร้างจริงทั้งหมด แทนที่จะนำภาพใหม่มาประกอบไว้ข้างๆ ซึ่งเน้นย้ำว่าแม้ว่าวิธีการป้อนข้อมูลจะดีขึ้นแล้ว แต่ความเข้าใจของโมเดล AI พื้นฐานเกี่ยวกับความสัมพันธ์เชิงพื้นที่และความตั้งใจยังมีพื้นที่สำหรับการพัฒนาเพิ่มเติม ประโยชน์เต็มรูปแบบของเครื่องมือเพิ่มคำอธิบายประกอบข้อความก็ยังคงไม่ชัดเจนนัก ซึ่งชี้ให้เห็นว่าคู่มือผู้ใช้และแนวทางปฏิบัติที่ดีน่าจะตามมาหลังจากการเปิดตัวอย่างเป็นทางการ

ภาพรวมที่ใหญ่ขึ้นสำหรับผู้ช่วย AI

อัปเดตนี้เป็นส่วนหนึ่งของแนวโน้มที่กว้างขึ้นในการพัฒนา AI ไปสู่การโต้ตอบแบบมัลติโมดัลที่ธรรมชาติและแม่นยำมากขึ้น ด้วยการรวมการทำเครื่องหมายภาพเข้ากับการป้อนคำสั่งข้อความ Google กำลังทำให้ Gemini เป็นเครื่องมือที่ทำงานร่วมกันได้ดีขึ้น มันยอมรับว่าการสื่อสารไม่ได้เป็นเพียงวาจาล้วนๆ และการชี้ วงกลม และเพิ่มคำอธิบายประกอบเป็นวิธีพื้นฐานที่มนุษย์แสดงออกถึงความคิด เมื่อ AI ถูกบูรณาการเข้ากับเวิร์กโฟลว์การทำงานเชิงสร้างสรรค์และวิเคราะห์ ฟีเจอร์เช่นนี้ที่ลดความยุ่งยากและความคลุมเครือจะมีความสำคัญอย่างยิ่งต่อการยอมรับและความพึงพอใจของผู้ใช้ ผลักดันให้ผู้ช่วยจากแค่ผู้รับคำสั่งกลายมาเป็นคู่หูเชิงสร้างสรรค์ที่แท้จริง