Google's Gemini เพิ่มฟีเจอร์ตรวจจับภาพ AI แต่ยังจับภาพปลอมจากคู่แข่งไม่ได้

ทีมบรรณาธิการ BigGo
Google's Gemini เพิ่มฟีเจอร์ตรวจจับภาพ AI แต่ยังจับภาพปลอมจากคู่แข่งไม่ได้

ในขณะที่ภาพที่สร้างขึ้นจาก AI เริ่มมีความซับซ้อนและแยกแยะจากภาพจริงได้ยากขึ้น การแข่งขันเพื่อพัฒนาเครื่องมือตรวจจับที่เชื่อถือได้ก็กำลังเร่งตัวขึ้น Google กำลังก้าวเข้ามาสู่วงการนี้ด้วยการอัปเดตครั้งสำคัญสำหรับ Gemini AI ของพวกเขา โดยการผนวกความสามารถในการตรวจจับภาพโดยตรงเข้าไปในแอปพลิเคชัน การเคลื่อนไหวครั้งนี้มีเป้าหมายเพื่อนำความโปร่งใสมาสู่โลกแห่งสื่อสังเคราะห์ที่คลุมเครือ แม้ว่ามันจะมาพร้อมกับข้อจำกัดสำคัญที่สะท้อนให้เห็นถึงสถานะของอุตสาหกรรมที่ยังไม่เป็นเอกภาพ

ฟีเจอร์ใหม่ของ Gemini ในการตรวจจับภาพ AI

Google ได้เปิดตัวฟีเจอร์ใหม่ภายในแอป Gemini ที่ทำให้มันสามารถระบุภาพที่สร้างขึ้นโดย AI ได้ ระบบนี้ทำงานโดยการสแกนหาลายน้ำล่องหนที่เรียกว่า SynthID ซึ่ง Google ฝังลงในภาพที่สร้างโดยโมเดล AI ของตัวเอง เมื่อผู้ใช้อัปโหลดภาพถ่ายไปยัง Gemini แอปพลิเคชันตอนนี้สามารถตรวจจับลายน้ำนี้โดยอัตโนมัติและติดป้ายว่าภาพดังกล่าวสร้างขึ้นโดย AI ซึ่งให้ประสบการณ์ที่รวดเร็วและบูรณาการมากกว่าเมื่อเทียบกับวิธีเดิมที่ต้องให้ผู้ใช้อัปโหลดภาพไปยังเครื่องมือ SynthID Detector บนเว็บแยกต่างหากด้วยตนเอง การผสานรวมนี้แสดงถึงความพยายามที่จะย้ายข้อมูลที่มาของเนื้อหาจากเครื่องมือสำหรับนักพัฒนาไปสู่สิ่งที่ผู้ใช้ทั่วไปสามารถเข้าถึงได้ในขณะที่พวกเขาเบราว์เซอร์เว็บ

คุณสมบัติหลักของ Gemini ในการตรวจจับภาพจาก AI:

  • เทคโนโลยีที่ใช้: การใส่ลายน้ำแบบมองไม่เห็น SynthID และข้อมูลเมตา C2PA
  • ขอบเขตการตรวจจับ: ยืนยันเฉพาะภาพที่สร้างขึ้นด้วยโมเดล AI ของ Google เท่านั้น (เช่น Gemini, Google Ads, Vertex AI)
  • จุดเข้าถึง: ถูกผนวกไว้ในแอป Gemini โดยตรงสำหรับการตรวจจับอัตโนมัติ
  • แผนในอนาคต: ขยายไปสู่เนื้อหาประเภทเสียง วิดีโอ และผลการค้นหาของ Google Search

จุดบอดสำคัญในการตรวจจับ

ข้อจำกัดที่สำคัญของระบบใหม่นี้คือมันทำงานได้เฉพาะกับภาพที่ผลิตโดยเครื่องมือ AI ของ Google เท่านั้น Gemini ไม่สามารถยืนยันได้ว่าภาพนั้นถูกสร้างขึ้นโดยโมเดลของคู่แข่งหรือไม่ เช่น จาก OpenAI, Midjourney หรือ Stability AI สิ่งนี้สร้างจุดบอดที่สำคัญ เนื่องจากภาพ AI จำนวนมหาศาลที่แพร่กระจายอยู่ในออนไลน์มีต้นทางมาจากแหล่งที่ไม่ใช่ของ Google เพื่อให้ระบบนิเวศการตรวจจับนี้มีประสิทธิภาพอย่างแท้จริง การยอมรับมาตรฐานร่วมกันในวงกว้างทั่วทั้งอุตสาหกรรมจึงเป็นสิ่งจำเป็น การใช้งานปัจจุบันของ Google เป็นเครื่องมือที่ทรงพลังภายใน "สวนมีรั้วล้อม" ของตัวเอง แต่ยังไม่สามารถเป็นทางออกสากลสำหรับการระบุเนื้อหา AI ทั่วทั้งอินเทอร์เน็ตได้

ข้อจำกัดของระบบในปัจจุบัน: ไม่สามารถตรวจจับภาพที่สร้างโดย AI จากโมเดลของบริษัทอื่น (เช่น OpenAI, Midjourney) ได้ ประสิทธิภาพจะถูกจำกัดหากไม่มีการนำมาตรฐานที่คล้ายคลึงกันไปใช้ในวงการอุตสาหกรรมโดยรวม

แนวทางสองชั้นของ Google สู่ความโปร่งใส

เพื่อเสริมความแข็งแกร่งให้กับความพยายามในการตรวจจับ Google ใช้ระบบสองชั้นเพื่อติดตามเนื้อหา AI ชั้นแรกคือลายน้ำ SynthID ที่มองไม่เห็น ซึ่งถูกออกแบบมาให้ยังคงตรวจจับได้แม้ว่าภณะจะถูกดัดแปลง ตัด หรือบีบอัดแล้ว ชั้นที่สองเกี่ยวข้องกับการแนบเมตาดาต้า C2PA ซึ่งเป็นรูปแบบที่ได้รับการสนับสนุนจากอุตสาหกรรม ทำหน้าที่เป็น "ป้ายข้อมูลโภชนาการ" สำหรับสื่อดิจิทัล โดยระบุรายละเอียดประวัติการสร้างและการเปลี่ยนแปลง เป้าหมายของแนวทางแบบผสมผสานนี้คือเพื่อให้ติดตามเนื้อหา AI ได้ง่ายขึ้น เมื่อมันถูกโพสต์ซ้ำ ผสมผสมใหม่ หรืออาจถูกใช้ในบริบทที่ทำให้เข้าใจผิดทั่วแพลตฟอร์มออนไลน์ต่างๆ

การขยายตัวในอนาคตและการผลักดันให้มีมาตรฐานอุตสาหกรรม

Google ได้ประกาศแผนที่จะขยายเทคโนโลยีการตรวจจับนี้ไปไกลกว่าภาพนิ่ง บริษัทมีแผนที่จะนำความสามารถในการตรวจสอบที่มาและการตรวจจับที่คล้ายกันไปยังเนื้อหาออดิโอ วิดีโอ และแม้แต่ผลการค้นหาหลัก (Search) ของตัวเองในอนาคต สิ่งนี้บ่งบอกถึงความมุ่งมั่นระยะยาวในการจัดการกับความท้าทายของข้อมูลเท็จจาก AI อย่างไรก็ตาม ความสำเร็จของความคิดริเริ่มดังกล่าวขึ้นอยู่กับความร่วมมือในวงกว้างจากอุตสาหกรรม ระบบที่เป็นของเฉพาะเจ้าของซึ่งกระจัดกระจายในปัจจุบัน เน้นย้ำถึงความจำเป็นสำหรับมาตรฐานที่เป็นหนึ่งเดียวที่นักพัฒนา AI ทุกคนสามารถนำไปใช้ได้ ทำให้การตรวจจับเป็นไปอย่างราบรื่นและเป็นสากลเทียบเท่ากับการสร้างสื่อสังเคราะห์นั่นเอง

เครื่องมือการเรียนรู้แบบโต้ตอบใหม่สำหรับ Gemini

ในการอัปเดตที่แยกออกมาแต่เกี่ยวข้องกัน Gemini ยังได้รับฟีเจอร์ใหม่ที่ออกแบบมาเพื่อเสริมการเรียนรู้ นั่นคือ ภาพแบบโต้ตอบ ฟังก์ชันนี้ทำให้ Gemini สามารถสร้างไดอะแกรม เช่น เซลล์พืชโดยละเอียด พร้อมป้ายกำกับที่สามารถคลิกได้ การแตะบนป้ายกำกับจะเปิดแผงด้านข้างที่มีคำจำกัดความ คำอธิบาย และเนื้อหาที่เกี่ยวข้องเกี่ยวกับองค์ประกอบเฉพาะนั้น ฟีเจอร์นี้มุ่งเป้าหมายหลักไปที่การช่วยเหลือผู้ใช้ โดยเฉพาะนักเรียน ในการสำรวจและทำความเข้าใจแนวคิดทางวิชาการที่ซับซ้อนผ่านการมองเห็น โดยอนุญาตให้พวกเขาโต้ตอบกับเนื้อหาได้อย่างกระตือรือร้น และถามคำถามต่อเนื่องเพื่อเจาะลึกมากขึ้น