ในโลกของการเรนเดอร์ 3 มิติและคอมพิวเตอร์วิชั่นที่กำลังพัฒนาอย่างรวดเร็ว เทคโนโลยีใหม่ที่เรียกว่า LiveSplat กำลังสร้างกระแสความสนใจอย่างมาก อัลกอริทึมที่มีนวัตกรรมนี้ช่วยให้สามารถทำ Gaussian splatting แบบเรียลไทม์โดยใช้สตรีมจากกล้อง RGBD ซึ่งอาจเปลี่ยนวิธีที่เราแสดงผลและมีปฏิสัมพันธ์กับสภาพแวดล้อม 3 มิติ
ทำลายข้อจำกัดด้านความเร็วใน Gaussian Splatting
วิธีการแบบ Gaussian splatting แบบดั้งเดิมมักต้องใช้เวลาหลายชั่วโมงในการประมวลผลเพื่อสร้างฉากสามมิติที่สมจริงจากภาพ 2 มิติ LiveSplat ที่พัฒนาโดย Mark Liu ใช้วิธีการที่แตกต่างอย่างสิ้นเชิงโดยใช้ข้อมูลความลึกเพื่อสร้างการแสดงผลเหล่านี้ในเวลาเพียง 33 มิลลิวินาทีต่อเฟรม นี่ถือเป็นก้าวกระโดดครั้งใหญ่ ทำให้สามารถใช้งานแบบเรียลไทม์ที่เคยคิดว่าเป็นไปไม่ได้มาก่อนด้วยเทคนิคการเรนเดอร์นี้
ผมจินตนาการว่าเราจะสามารถมีที่นั่งแถวหน้าเสมือนจริงในงานอีเวนต์สดใดๆ และการประยุกต์ใช้อีกมากมายที่เรายังนึกไม่ถึง
เทคโนโลยีนี้ทำงานโดยป้อนข้อมูล RGBD (RGB + ความลึก) จากกล้องสูงสุด 4 ตัวเข้าสู่เครือข่ายประสาทเทียมที่สร้างผลลัพธ์แบบ Gaussian splat ต่างจากการเรนเดอร์แบบ point cloud แบบดั้งเดิมที่มักประสบปัญหาจากความผิดเพี้ยนทางภาพและวัตถุที่มองทะลุได้ LiveSplat สร้างการแสดงผล 3 มิติที่สอดคล้องกันมากขึ้น พร้อมการเรนเดอร์พื้นผิวที่ดีขึ้น การจัดการการบังมุมมอง และเอฟเฟกต์ที่ขึ้นอยู่กับมุมมอง
การประนีประนอมทางเทคนิคเพื่อประสิทธิภาพแบบเรียลไทม์
เพื่อให้ได้ความเร็วที่น่าทึ่ง LiveSplat ต้องประนีประนอมทางเทคนิคหลายอย่างเมื่อเทียบกับวิธีการ Gaussian splatting แบบดั้งเดิม ผู้พัฒนายอมรับว่าระบบมีข้อจำกัดในการปรับตำแหน่งและขนาดของ splat เนื่องจากงบประมาณการคำนวณที่จำกัด ซึ่งอาจส่งผลให้เกิดเอฟเฟกต์แบบพิกเซลบางส่วน
ต่างจากวิธีการแบบดั้งเดิมที่ใช้กระบวนการปรับค่าแบบอาศัยเกรเดียนต์ซึ่งใช้เวลาเป็นนาทีหรือชั่วโมง LiveSplat ใช้เครือข่ายประสาทเทียมเพื่อแปลงข้อมูลอินพุต RGBD และข้อมูลตำแหน่งกล้องโดยตรงเป็นผลลัพธ์ Gaussian splat วิธีนี้หลีกเลี่ยงกระบวนการปรับค่าที่ใช้เวลานานโดยใช้ข้อมูลเชิงเรขาคณิตที่มีอยู่แล้วในช่องสัญญาณความลึก
เครือข่ายประสาทเทียมได้รับการฝึกฝนโดยใช้วิธีการเรียนรู้แบบมีผู้สอนที่ชาญฉลาด: จากกล้อง 4 ตัวที่มีอยู่ จะใช้ 3 ตัวเป็นอินพุตในขณะที่ตัวที่ 4 ใช้เป็นค่าอ้างอิง วิธีนี้ช่วยให้ระบบเรียนรู้เอฟเฟกต์ที่ขึ้นอยู่กับมุมมองและสามารถประมาณค่าระหว่างมุมมองของกล้องได้
ข้อกำหนดของ LiveSplat
- Python 3.12 ขึ้นไป
- Windows หรือ Ubuntu (ยังไม่ได้ทดสอบกับระบบปฏิบัติการ Linux อื่นๆ)
- CPU แบบ x86_64
- การ์ดจอ Nvidia
- เซนเซอร์ RGBD หนึ่งถึงสี่ตัว
ความแตกต่างทางเทคนิคที่สำคัญจากการทำ Gaussian Splatting แบบดั้งเดิม
- ใช้เวลาประมวลผล 33 มิลลิวินาที เทียบกับวิธีแบบดั้งเดิมที่ใช้เวลาหลายนาทีหรือหลายชั่วโมง
- ใช้เครือข่ายประสาทเทียมแทนการหาค่าเหมาะสมด้วยวิธีเกรเดียนต์
- ใช้ประโยชน์จากข้อมูลนำเข้าแบบ RGBD เพื่อข้ามขั้นตอนการสร้างรูปทรงเรขาคณิตที่ใช้เวลานาน
- การนำไปใช้งานเป็นแบบปิดโดยมีการแจกจ่ายในรูปแบบไบนารี
- มีความสามารถในการทำงานแบบเรียลไทม์ด้วยการประมวลผลแบบเฟรมต่อเฟรม
นัยสำคัญและการประยุกต์ใช้ในอนาคต
การตอบสนองของชุมชนต่อ LiveSplat แสดงให้เห็นถึงความสำคัญที่อาจมีในโลกของกราฟิก หลายคนมองว่าเป็นก้าวสำคัญสู่ประสบการณ์เสมือนจริงที่สมจริงยิ่งขึ้น โดยมีการประยุกต์ใช้ตั้งแต่ VR telepresence ไปจนถึงการถ่ายทอดสดอีเวนต์ต่างๆ
แม้ว่าปัจจุบัน LiveSplat จะเป็นซอฟต์แวร์แบบปิด (แจกจ่ายเป็นแพ็คเกจไบนารีสำหรับ Windows และ Ubuntu) แต่ก็ถือเป็นก้าวสำคัญในการทำให้เทคนิคการเรนเดอร์ขั้นสูงสามารถเข้าถึงได้สำหรับแอปพลิเคชันแบบเรียลไทม์ เทคโนโลยีนี้สามารถทำงานผ่านเครือข่าย IP โดยผู้พัฒนาระบุว่าในขณะที่การบีบอัดข้อมูล RGB เป็นปัญหาที่แก้ไขได้แล้ว การบีบอัดช่องสัญญาณความลึกต้องการการพิจารณาเป็นพิเศษ
มองไปข้างหน้า การสะสมข้อมูลเชิงเวลา (temporal accumulation) ดูเหมือนจะเป็นขั้นตอนการพัฒนาที่เป็นเหตุเป็นผลถัดไป ซึ่งอาจช่วยเพิ่มคุณภาพของภาพในขณะที่ยังคงรักษาประสิทธิภาพแบบเรียลไทม์ เมื่อเทคนิค Gaussian splatting พัฒนาขึ้นอย่างต่อเนื่อง เราอาจเห็นว่าเทคนิคเหล่านี้กลายเป็นพื้นฐานสำหรับเครื่องมือสร้างและใช้งานสื่อ 3 มิติแบบโต้ตอบรุ่นใหม่
อ้างอิง: LiveSplat