Meka Agent ทำคะแนน WebArena Benchmark ได้ 72.7% แต่ยังคงมีข้อกังวลด้านความปลอดภัย

ทีมชุมชน BigGo

Meka Agent ทำคะแนน WebArena Benchmark ได้ 72.7% แต่ยังคงมีข้อกังวลด้านความปลอดภัย

การเปิดตัว Meka Agent ซึ่งเป็นตัวแทนอัตโนมัติแบบโอเพ่นซอร์สที่สามารถใช้คอมพิวเตอร์ได้ ได้จุดประกายการอย่างเข้มข้นในชุมชนเทคโนโลยีเกี่ยวกับความสมดุลระหว่างความสามารถและความปลอดภัย แม้ว่าตัวแทนนี้จะทำผลลัพธ์ที่น่าประทับใจในการทดสอบ โดยทำคะแนนได้ 72.7% ในการทดสอบ WebArena แต่ความสามารถในการเข้าถึงคอมพิวเตอร์อย่างเต็มรูปแบบได้ทำให้เกิดข้อกังวลด้านความปลอดภัยอย่างมากในหมู่นักพัฒนาและผู้ใช้

ประสิทธิภาพการทดสอบมาตรฐาน

คะแนน WebArena Benchmark: 72.7%
บรรลุผลลัพธ์ที่ล้ำสมัยในการทำงานอัตโนมัติของเว็บเบราว์เซอร์
ใช้ระบบการตรวจสอบแบบหลายโมเดลเพื่อความแม่นยำ

ความกลัวด้านความปลอดภัยจากการเข้าถึงระบบแบบเต็มรูปแบบ

การอภิปรายที่ร้อนแรงที่สุดมุ่งเน้นไปที่การควบคุมระดับ OS ของ Meka ซึ่งไปไกลกว่าเครื่องมือระบบอัตโนมัติของเบราว์เซอร์ทั่วไป ซึ่งแตกต่างจากโซลูชันแบบ sandbox ที่ทำงานภายในสภาพแวดล้อมของเบราว์เซอร์ Meka สามารถโต้ตอบกับกล่องโต้ตอบของระบบ จัดการการอัปโหลดไฟล์ และดำเนินการในระดับระบบปฏิบัติการได้ ความสามารถนี้ได้ทำให้เกิดสัญญาณเตือนภัยในชุมชน โดยผู้ใช้ชี้ไปที่เหตุการณ์ล่าสุดที่เครื่องมือ AI ทำให้เกิดความเสียหายร้ายแรงต่อระบบของบริษัท

หนึ่งในผู้ร่วมก่อตั้ง Edward ได้รีบแก้ไขข้อกังวลเหล่านี้โดยชี้แจงว่าตัวแทนนี้ทำงานภายในสภาพแวดล้อมที่สดใหม่และถูกจำกัดแทนที่จะทำงานบนคอมพิวเตอร์ส่วนตัวหรือของบริษัท อย่างไรก็ตาม คำอธิบายนี้ไม่ได้ทำให้ผู้ที่สงสัยพอใจอย่างเต็มที่ เนื่องจากยังคงกังวลเกี่ยวกับศักยภาพในการใช้ในทางที่ผิดหรือความเสียหายโดยไม่ตั้งใจ

คุณสมบัติทางเทคนิคหลัก

การควบคุมระดับ OS (ไม่ใช่เฉพาะเบราว์เซอร์เท่านั้น)
พัฒนาด้วย TypeScript พร้อม API ที่ปลอดภัยด้านประเภทข้อมูล
เฟรมเวิร์กที่ขยายได้รองรับผู้ให้บริการหลายราย
โอเพนซอร์สภายใต้ใบอนุญาต MIT License
เครดิตฟรี 10 ดอลลาร์สหรัฐผ่าน Meka App

การแลกเปลี่ยนระหว่างประสิทธิภาพและต้นทุน

ข้อเสนอแนะจากชุมชนเผยให้เห็นความรู้สึกที่หลากหลายเกี่ยวกับคุณค่าในทางปฏิบัติของตัวแทนนี้ แม้ว่าผู้ใช้จะยอมรับความสำเร็จทางเทคนิคที่น่าประทับใจ แต่หลายคนตั้งคำถามว่าต้นทุน token จะสมเหตุสมผลกับประโยชน์ของระบบอัตโนมัติหรือไม่ ตัวแทนนี้ต้องการโมเดลการมองเห็นที่มีประสิทธิภาพสูงเช่น O3 ของ OpenAI หรือ Claude Sonnet 4 ซึ่งอาจมีราคาแพงในการรันสำหรับงานประจำ

น่าตื่นเต้นที่คุณภาพใกล้เคียงกับระดับมนุษย์ แต่ฉันยังคิดว่าเราใช้ token มากเกินไป และการเร่งความเร็วของระบบอัตโนมัตินั้นยังไม่คุ้มค่ากับราคา token ทั้งหมด

นักพัฒนายอมรับข้อจำกัดนี้ แต่โต้แย้งว่างานที่มีคุณค่าสูงและน่าเบื่อหน่าย เช่น การกรอกแบบฟอร์ม การหาลูกค้าเป็นรายย่อย และการติดตามราคา สามารถให้เหตุผลสำหรับต้นทุนปัจจุบันได้ พวกเขายังคาดหวังว่าราคา token จะลดลงเมื่อโมเดลการมองเห็นเติบโต

โมเดลที่แนะนำ

OpenAI O3
Claude Sonnet 4
Claude Opus 4
ต้องการโมเดลวิชันที่มีความสามารถในการทำความเข้าใจภาพที่ดี

สถาปัตยกรรมทางเทคนิคและประสิทธิภาพในโลกจริง

แนวทางของ Meka แตกต่างจากคู่แข่งโดยใช้หลายโมเดลที่ตรวจสอบงานของกันและกัน คล้ายกับการเขียนโปรแกรมแบบคู่ในการพัฒนาซอฟต์แวร์ ระบบนี้รวมถึงโมเดลประเมินผลที่ตรวจสอบว่างานเสร็จสิ้นอย่างถูกต้องหรือไม่ ซึ่งทีมงานให้เครดิตสำหรับประสิทธิภาพ benchmark ที่แข็งแกร่งของพวกเขา

อย่างไรก็ตาม การทดสอบในโลกจริงได้เผยให้เห็นความท้าทาย ผู้ใช้รายงานปัญหากับเว็บไซต์จองตั๋วเครื่องบิน ข้อผิดพลาดการหมดเวลา และงานที่ไม่สมบูรณ์ ผู้ทดสอบคนหนึ่งพบว่าเว็บไซต์สายการบินทั้งสองกลายเป็นไม่สามารถใช้งานได้ระหว่างเซสชันของพวกเขา ทำให้เกิดคำถามเกี่ยวกับว่าตัวแทนการใช้คอมพิวเตอร์ปัจจุบันพร้อมสำหรับแอปพลิเคชันในโลกจริงที่ซับซ้อนหรือไม่

ความท้าทายด้านโครงสร้างพื้นฐานและการปรับใช้

การอภิปรายของชุมชนยังเน้นข้อกังวลในการปรับใช้งานจริง แม้ว่าทีมงานจะได้สำรวจโซลูชันแบบ containerized ในตอนแรก แต่พวกเขาพบว่าบริการ VM บนคลาวด์เร็วกว่าและง่ายกว่าในการนำไปใช้ ระบบนี้ต้องการผู้ให้บริการโครงสร้างพื้นฐานเฉพาะที่เสนอการควบคุมระดับ OS ซึ่งจำกัดตัวเลือกการปรับใช้เมื่อเปรียบเทียบกับโซลูชันที่ใช้เฉพาะเบราว์เซอร์ที่ง่ายกว่า

ผู้ใช้ได้ร้องขอฟีเจอร์เช่น การสนับสนุน proxy สำหรับไซต์ที่ถูกบล็อก ความเข้ากันได้ของส่วนขยายเบราว์เซอร์ และความสามารถในการแก้ CAPTCHA ทีมงานได้ยืนยันว่าการสนับสนุน proxy มีให้บริการ พร้อมแผนสำหรับส่วนขยายเบราว์เซอร์ แม้ว่าพวกเขาจะยอมรับว่าการแก้ CAPTCHA จะยังคงเป็นความท้าทายที่ต่อเนื่อง

การอภิปรายรอบ Meka Agent สะท้อนคำถามที่กว้างขึ้นเกี่ยวกับความปลอดภัยของ AI และการปรับใช้งานจริง แม้ว่าความสำเร็จทางเทคนิคจะน่าประทับใจ แต่การตอบรับที่หลากหลายของชุมชนบ่งชี้ว่าการสร้างสมดุลระหว่างพลัง ความปลอดภัย และความคุ้มค่า ยังคงเป็นความท้าทายที่สำคัญสำหรับตัวแทนการใช้คอมพิวเตอร์แบบอัตโนมัติ

อ้างอิง: Meka Agent

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌