บริษัทรักษาความปลอดภัย AI เพิ่มประสิทธิภาพการตรวจจับช่องโหว่ 60% ด้วย "Model Alloys" ที่สลับระหว่าง LLMs ต่างๆ

ทีมชุมชน BigGo
บริษัทรักษาความปลอดภัย AI เพิ่มประสิทธิภาพการตรวจจับช่องโหว่ 60% ด้วย "Model Alloys" ที่สลับระหว่าง LLMs ต่างๆ

XBOW บริษัททดสอบการเจาะระบบแบบอัตโนมัติ ได้พัฒนาแนวทางใหม่ที่เรียกว่า model alloys ซึ่งช่วยปรับปรุงอัตราความสำเร็จในการตรวจจับช่องโหว่ของ AI agent อย่างมาก จากเดิม 25% เป็นมากกว่า 50% เทคนิคนี้ทำงานโดยการสลับระหว่างโมเดลภาษาขนาดใหญ่ต่างๆ ในระหว่างการสนทนาเดียวกัน ทำให้แต่ละโมเดลสามารถนำจุดแข็งเฉพาะตัวมาช่วยแก้ไขปัญหาด้านไซเบอร์ซีเคียวริตี้ที่ซับซ้อน

การปรับปรุงประสิทธิภาพจากการรวมโมเดล:

  • Claude Sonnet + Google Gemini: ได้ประสิทธิภาพที่เพิ่มขึ้นสูงสุด (ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำสุด: 0.43)
  • การรวมโมเดลจากผู้ให้บริการเดียวกัน (เช่น Sonnet 3.7 + Sonnet 4.0): การปรับปรุงน้อยมาก
  • ความก้าวหน้าของอัตราความสำเร็จ: 25% → 40% → 50%+ ในงานตรวจจับช่องโหว่
กราฟแสดงการปรับปรุงอัตราความสำเร็จในการตรวจจับช่องโหว่ที่ XBOW โดยใช้ model alloys
กราฟแสดงการปรับปรุงอัตราความสำเร็จในการตรวจจับช่องโหว่ที่ XBOW โดยใช้ model alloys

นวัตกรรมหลักเบื้องหลัง Model Alloys

แนวทาง alloy ทำงานโดยการรักษาการสนทนาแชทเดียวไว้ ขณะที่สลับระหว่างโมเดล AI ต่างๆ แบบสุ่ม เช่น Claude Sonnet ของ Anthropic และ Gemini ของ Google แต่ละโมเดลเชื่อว่าตนเองเป็นผู้เขียนคำตอบทั้งหมดในการสนทนาก่อนหน้านี้ ทำให้เกิดการผสมผสานความสามารถของ AI ต่างๆ อย่างไร้รอยต่อ เทคนิคนี้มีประสิทธิภาพเป็นพิเศษสำหรับงานที่ต้องการความเข้าใจเชิงลึกหลายๆ ด้านมากกว่าความก้าวหน้าแบบค่อยเป็นค่อยไป

ชุมชนแสดงความสนใจอย่างมากต่อแนวทางนี้ โดยนักพัฒนาหลายคนได้เริ่มทดลองใช้เทคนิคที่คล้ายคลึงกันในขั้นตอนการทำงานของตนเอง ผู้ใช้คนหนึ่งกล่าวว่าพวกเขาสลับระหว่างโมเดลต่างๆ เป็นประจำในระหว่างเซสชันระดมความคิด ขณะที่อีกคนหนึ่งกล่าวถึงการใช้วิธีนี้ในสภาพแวดล้อมการเขียนโค้ดเช่น Cursor เพื่อให้ได้มุมมองที่แตกต่างกันในปัญหาที่ซับซ้อน

Model alloys: เทคนิคที่โมเดล AI ต่างๆ ผลัดกันตอบในเธรดการสนทนาเดียวกัน โดยแต่ละตัวไม่รู้ว่ามีการมีส่วนร่วมของโมเดลอื่น

ข้อพิจารณาในการนำไปใช้งาน:

  • เพิ่มต้นทุนการแคช prompt เป็นสองเท่า (การจัดเก็บแยกต่างหากสำหรับแต่ละโมเดล)
  • ใช้งานได้ดีที่สุดกับโมเดลจากผู้ให้บริการที่แตกต่างกัน
  • กลยุทธ์การสลับแบบสุ่มและการสลับแบบสลับกันมีประสิทธิภาพเท่าเทียมกัน
  • รักษาเธรดการสนทนาเดียวตลอดการสลับโมเดล
การเปรียบเทียบ Gemini 25 pro และ Sonnet 40 ในความท้าทายต่างๆ เพื่อแสดงให้เห็นประสิทธิภาพของโมเดล
การเปรียบเทียบ Gemini 25 pro และ Sonnet 40 ในความท้าทายต่างๆ เพื่อแสดงให้เห็นประสิทธิภาพของโมเดล

การเพิ่มประสิทธิภาพในการผสมผสานโมเดลต่างๆ

การทดสอบของ XBOW เผยให้เห็นว่าความหลากหลายของโมเดลเป็นกุญแจสำคัญของความสำเร็จ การผสมผสานที่มีประสิทธิภาพที่สุดคือการจับคู่โมเดลจากผู้ให้บริการต่างกัน เช่น Claude Sonnet กับ Google Gemini ซึ่งแสดงความสัมพันธ์ที่ต่ำที่สุดในแนวทางการแก้ปัญหา น่าสนใจที่การผสมผสานโมเดลจากผู้ให้บริการเดียวกันให้ผลการปรับปรุงที่น้อยกว่ามาก ชี้ให้เห็นว่าความแตกต่างในการฝึกอบรมระหว่างบริษัทต่างๆ สร้างจุดแข็งที่เสริมกันมากกว่า

เทคนิคนี้มีประสิทธิภาพสูงกว่าทั้งโมเดลเดี่ยวและแนวทางการทดสอบแบบขนานอย่างง่าย แม้แต่การรันเอเจนต์แยกกันหลายตัวด้วยโมเดลต่างๆ ก็ไม่สามารถเทียบได้กับประสิทธิภาพของเอเจนต์ alloy เดียว ซึ่งเน้นย้ำถึงคุณค่าของบริบทที่ใช้ร่วมกันและการแก้ปัญหาแบบร่วมมือ

เมื่อไหร่ที่ Model Alloys ทำงานได้ดีที่สุด

การอภิปรายของชุมชนเผยให้เห็นว่าแนวทางนี้เปล่งประกายในสถานการณ์เฉพาะ มีประสิทธิภาพสูงสุดสำหรับงานแบบวนซ้ำที่ต้องการการเรียกใช้โมเดลหลายสิบครั้ง ซึ่งความเข้าใจเชิงสร้างสรรค์หลายๆ ด้านต้องรวมกันเพื่อแก้ปัญหาที่ซับซ้อน การทดสอบไซเบอร์ซีเคียวริตี้ การออกแบบสถาปัตยกรรม และเซสชันการแก้ไขข้อผิดพลาดที่ซับซ้อนเป็นตัวอย่างการใช้งานที่เหมาะสม

อย่างไรก็ตาม เทคนิคนี้มีข้อจำกัด งานที่ต้องการความก้าวหน้าที่มั่นคงมากกว่าช่วงเวลาแห่งการค้นพบอาจไม่ได้รับประโยชน์อย่างมีนัยสำคัญ นอกจากนี้ แนวทางนี้ทำให้ต้นทุนการแคช prompt เพิ่มขึ้นเป็นสองเท่า เนื่องจากผู้ให้บริการโมเดลแต่ละรายต้องการการจัดเก็บบริบทแยกกัน ทำให้ประหยัดน้อยลงสำหรับแอปพลิเคชันที่ใช้ prompt มาก

กรณีการใช้งานที่เหมาะสมที่สุดสำหรับ Model Alloys :

  • งานที่ต้องการการเรียกใช้โมเดลแบบวนซ้ำ 10 ครั้งขึ้นไป
  • ปัญหาที่ต้องการการค้นพบเชิงสร้างสรรค์หลายครั้ง
  • ความท้าทายแบบค้นหาที่มีทางตันจำนวนมาก
  • สถานการณ์ที่โมเดลต่างๆ มีจุดเด่นในงานย่อยที่แตกต่างกัน
กราฟแสดงให้เห็นว่าสัดส่วนโลหะผสมที่แตกต่างกันส่งผลกระทบต่ออัตราความสำเร็จในการทดสอบโมเดล AI อย่างไร
กราฟแสดงให้เห็นว่าสัดส่วนโลหะผสมที่แตกต่างกันส่งผลกระทบต่ออัตราความสำเร็จในการทดสอบโมเดล AI อย่างไร

ผลกระทบที่กว้างขึ้นต่อการพัฒนา AI

การพัฒนานี้สะท้อนถึงแนวโน้มที่เพิ่มขึ้นสู่แนวทาง AI แบบผสมผสานที่รวมจุดแข็งของโมเดลต่างๆ แทนที่จะพึ่งพาโมเดลเดียวที่ดีที่สุด ความสำเร็จของ model alloys ชี้ให้เห็นว่าความหลากหลายในระบบ AI เช่นเดียวกับในทีมมนุษย์ สามารถให้ผลลัพธ์ที่เหนือกว่าความเป็นเลิศของแต่ละบุคคลเพียงอย่างเดียว

การพิสูจน์ว่าความหลากหลายของความคิดเป็นสิ่งที่ดี การสังเกตที่ก่อให้เกิดการถกเถียงในสหรัฐอเมริกาปี 2025 ;) อย่างจริงจัง เมื่อฉันเริ่มต้นโครงการ ฉันมักจะขอให้ Gemini 2.5 ออกแบบสถาปัตยกรรมและดำเนินการรอบแรก จากนั้นให้ Claude ทำการปรับปรุง

ความเรียบง่ายของเทคนิคทำให้นักพัฒนาที่ทำงานกับ AI APIs ที่มีอยู่สามารถเข้าถึงได้ โดยต้องการเพียงการจัดการการสนทนาพื้นฐานมากกว่าระบบการประสานงานที่ซับซ้อน เมื่อโมเดล AI ยังคงเชี่ยวชาญในพื้นที่ต่างๆ model alloys อาจกลายเป็นเทคนิคมาตรฐานสำหรับการเพิ่มประสิทธิภาพสูงสุดในโดเมนปัญหาที่หลากหลาย

อ้างอิง: Alloy