นักพัฒนา BrowserOS เปิดเผยสถาปัตยกรรมทางเทคนิคเบื้องหลังเบราว์เซอร์ AI โอเพนซอร์ส

ทีมชุมชน BigGo
นักพัฒนา BrowserOS เปิดเผยสถาปัตยกรรมทางเทคนิคเบื้องหลังเบราว์เซอร์ AI โอเพนซอร์ส

BrowserOS เบราว์เซอร์โอเพนซอร์สที่ขับเคลื่อนด้วย AI ซึ่งมุ่งหวังท้าทายการครอบงำของยักษ์ใหญ่ด้านเทคโนโลยีในตลาดเว็บเบราว์เซอร์ ได้จุดประกายการอภิปรายทางเทคนิคอย่างมากในชุมชนนักพัฒนา โครงการนี้วางตำแหน่งตัวเองเป็นทางเลือกที่ใช้ Chromium เป็นฐานและรัน AI agents ในเครื่องโดยตรง โดยสัญญาว่าจะมอบความสามารถด้านความเป็นส่วนตัวและระบบอัตโนมัติที่เพิ่มขึ้น โดยไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอก

ข้อมูลจำเพาะทางเทคนิค:

  • ลิขสิทธิ์: AGPL-3.0 (โอเพนซอร์ส 100%)
  • ฐาน: Chromium fork
  • ความเข้ากันได้ของส่วนขยาย: รองรับ Chrome extension แบบเต็มรูปแบบ
  • การประมวลผล AI: ดำเนินการในเครื่องด้วยการผสานรวม Ollama
  • ขนาดทีม: นักพัฒนา 2 คน

การปรับปรุงประสิทธิภาพในระดับหลัก

ทีมพัฒนาได้เปิดเผยว่า BrowserOS ไปไกลเกินกว่าการเป็นเพียงตัวห่อหุ้มเบราว์เซอร์ธรรมดา ไม่เหมือนกับโครงการที่คล้ายกันหลายโครงการที่พึ่งพาโซลูชันที่ใช้ JavaScript เช่น Playwright BrowserOS ใช้การเปลี่ยนแปลงที่สำคัญต่อประสิทธิภาพโดยตรงในระดับซอร์สโค้ด C++ ของ Chromium วิธีการนี้ให้ประสิทธิภาพการทำงานที่เร็วกว่า 20-40 เท่าสำหรับการโต้ตอบของ agent เช่น การคลิกองค์ประกอบต่างๆ และการป้อนข้อความ ทีมงานยังกำลังสร้าง DOM tree ที่ปรับปรุงแล้วซึ่งออกแบบมาเฉพาะสำหรับการโต้ตอบของ agent โดยใช้งานใน C++ แบบเนทีฟแทนที่จะใช้วิธีการฉีด JavaScript ที่ช้ากว่า

DOM tree: อินเทอร์เฟซการเขียนโปรแกรมที่แสดงโครงสร้างของหน้าเว็บ ช่วยให้โปรแกรมสามารถโต้ตอบกับองค์ประกอบต่างๆ ในหน้าเว็บได้

การเปรียบเทียบประสิทธิภาพ:

  • การโต้ตอบของ BrowserOS agent: เร็วกว่าโซลูชันที่ใช้ JavaScript 20-40 เท่า
  • การพัฒนา: การปรับแต่งในระดับ C++ เทียบกับการฉีด JavaScript
  • สถาปัตยกรรม: Chromium fork ที่มี DOM tree ที่ปรับปรุงแล้วสำหรับการโต้ตอบของ agent

โมเดลความยั่งยืนสำหรับองค์กร

เมื่อถูกตั้งคำถามเกี่ยวกับความยั่งยืนทางการเงินในระยะยาว ผู้ดูแลโครงการได้อธิบายโมเดลธุรกิจโอเพนซอร์สที่คุ้นเคย พวกเขาวางแผนที่จะเสนอใบอนุญาตองค์กรสำหรับเวอร์ชันเชิงพาณิชย์ของเบราว์เซอร์ โดยเดินตามเส้นทางของโครงการโอเพนซอร์สที่ประสบความสำเร็จอื่นๆ วิธีการนี้ช่วยให้เบราว์เซอร์หลักยังคงเป็นฟรีและโอเพนซอร์สภายใต้ใบอนุญาต AGPL-3.0 ในขณะที่สร้างรายได้จากลูกค้าธุรกิจที่ต้องการฟีเจอร์เพิ่มเติมหรือการสนับสนุน

ข้อจำกัดทางเทคนิคขับเคลื่อนการตัดสินใจด้านสถาปัตยกรรม

การตัดสินใจสร้างเบราว์เซอร์แบบสแตนด์อโลนแทนที่จะเป็นส่วนขยายเบราว์เซอร์ เกิดจากความจำเป็นทางเทคนิค ทีมงานอธิบายว่าฟีเจอร์ที่จำเป็นเช่นการเข้าถึง accessibility tree ของ Chromium ไม่สามารถใช้งานได้ผ่าน extension APIs มาตรฐาน Google Chrome จงใจจำกัดความสามารถของส่วนขยายเพื่อให้มีน้ำหนักเบา แต่ AI agents ต้องการการเข้าถึงระบบในระดับลึกเพื่อทำงานได้อย่างมีประสิทธิภาพ แม้ว่านักพัฒนาจะแสดงความเต็มใจที่จะมีส่วนร่วมในการเปลี่ยนแปลงเหล่านี้ให้กับ Chromium แต่พวกเขาสงสัยว่า Google จะยอมรับ APIs ที่ให้ส่วนขยายมีการเข้าถึงที่กว้างขวางเช่นนี้หรือไม่

การรองรับแพลตฟอร์ม:

  • macOS ( Apple Silicon และ Intel )
  • Windows
  • Linux (จะเปิดตัวต้นสัปดาห์หน้า)

ความต้องการของระบบ:

  • ความต้องการฮาร์ดแวร์ขั้นต่ำเหมือนกับ Google Chrome
  • ต้องการทรัพยากรเพิ่มเติมเฉพาะเมื่อรัน LLMs ในเครื่องผ่าน Ollama

การพัฒนาอย่างรวดเร็วและการขยายแพลตฟอร์ม

แม้จะถูกพัฒนาโดยคนเพียงสองคน BrowserOS กำลังขยายตัวอย่างรวดเร็วในหลายแพลตฟอร์ม เบราว์เซอร์ในปัจจุบันรองรับทั้ง Apple Silicon และ Intel Macs รวมถึงระบบ Windows การสนับสนุน Linux กำลังอยู่ในระหว่างการพัฒนาอย่างจริงจัง โดยทีมงานสัญญาว่าจะมีให้ใช้งานได้ภายในต้นสัปดาห์หน้า ข้อกำหนดฮาร์ดแวร์ขั้นต่ำตรงกับ Google Chrome สมมติว่าผู้ใช้นำ API keys ของตัวเองมาและไม่รันโมเดลภาษาขนาดใหญ่ในเครื่องผ่านการสนับสนุน Ollama ที่รวมอยู่ด้วย

โครงการนี้มาถึงในช่วงเวลาที่น่าสนใจเป็นพิเศษ โดยมีข่าวลือแนะนำว่า OpenAI วางแผนเปิดตัวเบราว์เซอร์ของตัวเองในช่วงฤดูร้อนนี้ ไม่เหมือนกับข้อเสนอ OpenAI แบบ closed-source ที่คาดการณ์ไว้ BrowserOS ยังคงยึดมั่นในความมุ่งมั่นต่อการพัฒนาโอเพนซอร์สและการประมวลผล AI ในเครื่อง ซึ่งดึงดูดผู้ใช้ที่กังวลเกี่ยวกับความเป็นส่วนตัวของข้อมูลและการควบคุมของบริษัทต่อประสบการณ์การท่องเว็บ

อ้างอิง: The Open-Source Agentic Browser