LiveSplat: การแสดงผลแบบ Gaussian Splatting แบบเรียลไทม์สร้างความก้าวหน้าใหม่ในการเรนเดอร์ 3 มิติ

BigGo Editorial Team
LiveSplat: การแสดงผลแบบ Gaussian Splatting แบบเรียลไทม์สร้างความก้าวหน้าใหม่ในการเรนเดอร์ 3 มิติ

ในโลกของการเรนเดอร์ 3 มิติและคอมพิวเตอร์วิชั่นที่กำลังพัฒนาอย่างรวดเร็ว เทคโนโลยีใหม่ที่เรียกว่า LiveSplat กำลังสร้างกระแสความสนใจอย่างมาก อัลกอริทึมที่มีนวัตกรรมนี้ช่วยให้สามารถทำ Gaussian splatting แบบเรียลไทม์โดยใช้สตรีมจากกล้อง RGBD ซึ่งอาจเปลี่ยนวิธีที่เราแสดงผลและมีปฏิสัมพันธ์กับสภาพแวดล้อม 3 มิติ

ทำลายข้อจำกัดด้านความเร็วใน Gaussian Splatting

วิธีการแบบ Gaussian splatting แบบดั้งเดิมมักต้องใช้เวลาหลายชั่วโมงในการประมวลผลเพื่อสร้างฉากสามมิติที่สมจริงจากภาพ 2 มิติ LiveSplat ที่พัฒนาโดย Mark Liu ใช้วิธีการที่แตกต่างอย่างสิ้นเชิงโดยใช้ข้อมูลความลึกเพื่อสร้างการแสดงผลเหล่านี้ในเวลาเพียง 33 มิลลิวินาทีต่อเฟรม นี่ถือเป็นก้าวกระโดดครั้งใหญ่ ทำให้สามารถใช้งานแบบเรียลไทม์ที่เคยคิดว่าเป็นไปไม่ได้มาก่อนด้วยเทคนิคการเรนเดอร์นี้

ผมจินตนาการว่าเราจะสามารถมีที่นั่งแถวหน้าเสมือนจริงในงานอีเวนต์สดใดๆ และการประยุกต์ใช้อีกมากมายที่เรายังนึกไม่ถึง

เทคโนโลยีนี้ทำงานโดยป้อนข้อมูล RGBD (RGB + ความลึก) จากกล้องสูงสุด 4 ตัวเข้าสู่เครือข่ายประสาทเทียมที่สร้างผลลัพธ์แบบ Gaussian splat ต่างจากการเรนเดอร์แบบ point cloud แบบดั้งเดิมที่มักประสบปัญหาจากความผิดเพี้ยนทางภาพและวัตถุที่มองทะลุได้ LiveSplat สร้างการแสดงผล 3 มิติที่สอดคล้องกันมากขึ้น พร้อมการเรนเดอร์พื้นผิวที่ดีขึ้น การจัดการการบังมุมมอง และเอฟเฟกต์ที่ขึ้นอยู่กับมุมมอง

การประนีประนอมทางเทคนิคเพื่อประสิทธิภาพแบบเรียลไทม์

เพื่อให้ได้ความเร็วที่น่าทึ่ง LiveSplat ต้องประนีประนอมทางเทคนิคหลายอย่างเมื่อเทียบกับวิธีการ Gaussian splatting แบบดั้งเดิม ผู้พัฒนายอมรับว่าระบบมีข้อจำกัดในการปรับตำแหน่งและขนาดของ splat เนื่องจากงบประมาณการคำนวณที่จำกัด ซึ่งอาจส่งผลให้เกิดเอฟเฟกต์แบบพิกเซลบางส่วน

ต่างจากวิธีการแบบดั้งเดิมที่ใช้กระบวนการปรับค่าแบบอาศัยเกรเดียนต์ซึ่งใช้เวลาเป็นนาทีหรือชั่วโมง LiveSplat ใช้เครือข่ายประสาทเทียมเพื่อแปลงข้อมูลอินพุต RGBD และข้อมูลตำแหน่งกล้องโดยตรงเป็นผลลัพธ์ Gaussian splat วิธีนี้หลีกเลี่ยงกระบวนการปรับค่าที่ใช้เวลานานโดยใช้ข้อมูลเชิงเรขาคณิตที่มีอยู่แล้วในช่องสัญญาณความลึก

เครือข่ายประสาทเทียมได้รับการฝึกฝนโดยใช้วิธีการเรียนรู้แบบมีผู้สอนที่ชาญฉลาด: จากกล้อง 4 ตัวที่มีอยู่ จะใช้ 3 ตัวเป็นอินพุตในขณะที่ตัวที่ 4 ใช้เป็นค่าอ้างอิง วิธีนี้ช่วยให้ระบบเรียนรู้เอฟเฟกต์ที่ขึ้นอยู่กับมุมมองและสามารถประมาณค่าระหว่างมุมมองของกล้องได้

ข้อกำหนดของ LiveSplat

  • Python 3.12 ขึ้นไป
  • Windows หรือ Ubuntu (ยังไม่ได้ทดสอบกับระบบปฏิบัติการ Linux อื่นๆ)
  • CPU แบบ x86_64
  • การ์ดจอ Nvidia
  • เซนเซอร์ RGBD หนึ่งถึงสี่ตัว

ความแตกต่างทางเทคนิคที่สำคัญจากการทำ Gaussian Splatting แบบดั้งเดิม

  • ใช้เวลาประมวลผล 33 มิลลิวินาที เทียบกับวิธีแบบดั้งเดิมที่ใช้เวลาหลายนาทีหรือหลายชั่วโมง
  • ใช้เครือข่ายประสาทเทียมแทนการหาค่าเหมาะสมด้วยวิธีเกรเดียนต์
  • ใช้ประโยชน์จากข้อมูลนำเข้าแบบ RGBD เพื่อข้ามขั้นตอนการสร้างรูปทรงเรขาคณิตที่ใช้เวลานาน
  • การนำไปใช้งานเป็นแบบปิดโดยมีการแจกจ่ายในรูปแบบไบนารี
  • มีความสามารถในการทำงานแบบเรียลไทม์ด้วยการประมวลผลแบบเฟรมต่อเฟรม

นัยสำคัญและการประยุกต์ใช้ในอนาคต

การตอบสนองของชุมชนต่อ LiveSplat แสดงให้เห็นถึงความสำคัญที่อาจมีในโลกของกราฟิก หลายคนมองว่าเป็นก้าวสำคัญสู่ประสบการณ์เสมือนจริงที่สมจริงยิ่งขึ้น โดยมีการประยุกต์ใช้ตั้งแต่ VR telepresence ไปจนถึงการถ่ายทอดสดอีเวนต์ต่างๆ

แม้ว่าปัจจุบัน LiveSplat จะเป็นซอฟต์แวร์แบบปิด (แจกจ่ายเป็นแพ็คเกจไบนารีสำหรับ Windows และ Ubuntu) แต่ก็ถือเป็นก้าวสำคัญในการทำให้เทคนิคการเรนเดอร์ขั้นสูงสามารถเข้าถึงได้สำหรับแอปพลิเคชันแบบเรียลไทม์ เทคโนโลยีนี้สามารถทำงานผ่านเครือข่าย IP โดยผู้พัฒนาระบุว่าในขณะที่การบีบอัดข้อมูล RGB เป็นปัญหาที่แก้ไขได้แล้ว การบีบอัดช่องสัญญาณความลึกต้องการการพิจารณาเป็นพิเศษ

มองไปข้างหน้า การสะสมข้อมูลเชิงเวลา (temporal accumulation) ดูเหมือนจะเป็นขั้นตอนการพัฒนาที่เป็นเหตุเป็นผลถัดไป ซึ่งอาจช่วยเพิ่มคุณภาพของภาพในขณะที่ยังคงรักษาประสิทธิภาพแบบเรียลไทม์ เมื่อเทคนิค Gaussian splatting พัฒนาขึ้นอย่างต่อเนื่อง เราอาจเห็นว่าเทคนิคเหล่านี้กลายเป็นพื้นฐานสำหรับเครื่องมือสร้างและใช้งานสื่อ 3 มิติแบบโต้ตอบรุ่นใหม่

อ้างอิง: LiveSplat