แอปพลิเคชันเดสก์ท็อปใหม่ที่ชื่อ Cosmos กำลังได้รับความสนใจจากความสามารถในการเปลี่ยนคลังสื่อที่ไม่ได้ใช้งานให้กลายเป็นทรัพย์สินที่สามารถค้นหาได้และสร้างรายได้ได้โดยใช้การประมวลผล AI ในเครื่อง เครื่องมือนี้แก้ไขปัญหาที่พบบ่อยในองค์กรสื่อ คือเนื้อหาที่มีคุณค่าถูกฝังอยู่ในคลังข้อมูลขนาดใหญ่ที่ยังไม่ได้รับการค้นพบและไม่สามารถสร้างรายได้ได้เนื่องจากการค้นหาที่ไม่มีประสิทธิภาพ
การประมวลผลในเครื่องรับประกันความเป็นส่วนตัวและความปลอดภัย
แตกต่างจากโซลูชันบนคลาวด์ Cosmos ทำงานทั้งหมดบนเครื่องของผู้ใช้โดยไม่ต้องอัปโหลดข้อมูลใดๆ ไปยังเซิร์ฟเวอร์ภายนอก แอปพลิเคชันใช้โมเดลแมชชีนเลิร์นนิงในเครื่อง รวมถึง Whisper สำหรับการถอดเสียงเป็นข้อความและโมเดลฝังตัวต่างๆ เช่น CLIP และ SigLIP สำหรับความเข้าใจเชิงความหมาย วิธีการนี้ช่วยให้มั่นใจว่าเนื้อหาสื่อที่ละเอียดอ่อนจะไม่ออกจากการควบคุมของผู้ใช้ในขณะที่ยังคงให้ความสามารถในการค้นหาด้วย AI ขั้นสูง
ทีมพัฒนาเลือกวิธีการที่เน้นการทำงานในเครื่องนี้อย่างรอบคอบ โดยตระหนักว่าองค์กรสื่อมักจัดการกับเนื้อหาที่เป็นความลับหรือเป็นกรรมสิทธิ์ที่ไม่สามารถแบ่งปันกับบริการของบุคคลที่สามได้
การรองรับแพลตฟอร์ม:
- ปัจจุบัน: รองรับเฉพาะ macOS เท่านั้น
- ความเป็นส่วนตัว: ประมวลผลในเครื่องแบบ 100% สำหรับการจัดทำดัชนีและการค้นหา
- ข้อมูล: ไม่มีการส่งข้อมูลไปยังเซิร์ฟเวอร์ภายนอกสำหรับฟังก์ชันหลัก
- การจัดเก็บ: เนื้อหาทั้งหมดจะอยู่ในเครื่องของผู้ใช้
การค้นหาเชิงความหมายที่เกินกว่าชื่อไฟล์
จุดแข็งหลักของแอปพลิเคชันอยู่ที่ความสามารถในการค้นหาเชิงความหมาย ซึ่งสามารถค้นหาเนื้อหาตามแนวคิดแทนที่จะเป็นเพียงชื่อไฟล์หรือเมตาดาต้าพื้นฐาน ผู้ใช้สามารถค้นหาคลังข้อมูลของตนโดยใช้คำสั่งภาษาธรรมชาติเพื่อค้นหาฉากเฉพาะ อารมณ์ หรือองค์ประกอบทางภาพที่เป็นไปไม่ได้ที่จะค้นหาผ่านการค้นหาแบบไฟล์ดั้งเดิม
ตัวชี้วัดประสิทธิภาพแสดงผลลัพธ์ที่น่าสนใจ โดยภาพยนตร์ความยาว 2 ชั่วโมงทั่วไปใช้เวลาน้อยกว่า 5 นาทีในการสร้างดัชนีบนโปรเซสเซอร์ M2 ระบบใช้การสุ่มตัวอย่างอัจฉริยะเพื่อตรวจจับเฟรมที่คล้ายกัน เพิ่มประสิทธิภาพเวลาการประมวลผลโดยเน้นที่เนื้อหาที่ไม่ซ้ำกัน คำสั่งค้นหามักจะส่งคืนผลลัพธ์ภายใน 100-250 มิลลิวินาที
ตัวชี้วัดประสิทธิภาพ:
- ความเร็วในการจัดทำดัชนี: น้อยกว่า 5 นาทีสำหรับภาพยนตร์ยาว 2 ชั่วโมง (โปรเซสเซอร์ M2 )
- ความหน่วงในการค้นหา: 100-250 มิลลิวินาทีสำหรับการสืบค้นเชิงความหมาย
- การประมวลผล: การสุ่มตัวอย่างอัจฉริยะตรวจจับเฟรมที่คล้ายกันเพื่อการปรับให้เหมาะสม
![]() |
---|
การค้นหาด้วยภาษาธรรมชาติใน Cosmos โดยเน้นการโต้ตอบของผู้ใช้กับเครื่องมือ |
การนำไปใช้ทางเทคนิคและข้อจำกัดของแพลตฟอร์ม
สร้างขึ้นโดยใช้เฟรมเวิร์ก Tauri ปัจจุบัน Cosmos รองรับเฉพาะ macOS เท่านั้น ซึ่งได้รับการวิพากษ์วิจารณ์จากผู้ใช้ที่คาดหวังความพร้อมใช้งานข้ามแพลตฟอร์ม ทีมพัฒนาได้ย้ายจาก Electron ไป Tauri และทำให้สถาปัตยกรรมฐานข้อมูลง่ายขึ้นจาก Redis เป็น SQLite ด้วยส่วนขยายการฝังเวกเตอร์ โดยพบว่าโซลูชันที่ง่ายกว่าทำงานได้ดีกว่าสำหรับกรณีการใช้งานเฉพาะนี้
แอปพลิเคชันรวมกับ Veo 3 ของ Google สำหรับความสามารถในการสร้างวิดีโอ โดยต้องการให้ผู้ใช้ระบุ API key ของ Gemini เอง แม้ว่าฟีเจอร์นี้จะเกี่ยวข้องกับการประมวลผลบนคลาวด์ แต่เนื้อหาที่สร้างขึ้นจะถูกบันทึกในเครื่องเพื่อรักษาการควบคุมของผู้ใช้เหนือทรัพย์สินสื่อของตน
เทคโนโลยีที่ใช้:
- เฟรมเวิร์ก: Tauri (ย้ายมาจาก Electron )
- ฐานข้อมูล: SQLite พร้อมส่วนขยาย vector embedding
- โมเดล ML : Whisper (การแปลงเสียงเป็นข้อความ), CLIP , SigLIP (embeddings)
- การประมวลผลสื่อ: ImageMagick , FFmpeg
- การสร้างวิดีโอ: Google Veo 3 (ต้องใช้ Gemini API key )
![]() |
---|
ผลิตภัณฑ์ Cosmos AI Assistant แสดงไฟล์สื่อที่จัดระเบียบแล้วพร้อมสำหรับการจัดทำดัชนี |
การตอบสนองของชุมชนและการพัฒนาในอนาคต
ความคิดเห็นของผู้ใช้ในช่วงแรกเน้นทั้งความตื่นเต้นและความกังวลเกี่ยวกับผลิตภัณฑ์ ผู้ใช้บางคนขอให้มีการสาธิตวิดีโอเพื่อเข้าใจความสามารถของเครื่องมือในสถานการณ์จริงให้ดีขึ้น ทีมพัฒนาได้แบ่งปันรายละเอียดการนำไปใช้ทางเทคนิค ส่งเสริมให้ผู้อื่นสร้างโซลูชันที่คล้ายกันและมีส่วนร่วมในฐานความรู้ของชุมชนโอเพนซอร์ส
แผนการในอนาคตรวมถึงการทดลองกับโมเดลการสร้างวิดีโอในเครื่องอย่างสมบูรณ์เพื่อขจัดความจำเป็นในการใช้บริการคลาวด์ใดๆ ซึ่งอาจทำให้ Cosmos เป็นโซลูชันออฟไลน์อย่างสมบูรณ์สำหรับการจัดการคลังสื่อและการสร้างเนื้อหา
อ้างอิง: Unlock the value of your media archive
![]() |
---|
การทำงานร่วมกันเป็นทีมในการปรับปรุงแอปพลิเคชัน Cosmos โดยอิงจากฟีดแบ็กของผู้ใช้ |