본 게시글은 3D Gaussian Splatting for Real-Time Radiance Field Rendering 논문을 읽고 리뷰, 정리하였습니다. 학부생 수준이라 많이 미흡한 점 참고 부탁드립니다. 지적 또한 감사히 받겠습니다.

3D scene 표현의 새로운 패러다임
View Synthesis의 SOTA였던 NeRF 시대의 막을 내리게 할 새로운 다크호스(?)가 등장했습니다.
SIGGRAPH 2023에서 발표한 3D Gaussian Splatting에 대하여 리뷰해보고자 합니다.
테스크는 같습니다. View Synthesis의 성능을 높이기 위한 방법이지만 NeRF와는 다르게 딥러닝이 쓰이지 않았다는 점이 가장 큰 변화라 볼 수 있습니다.
View Synthesis?
처음으로 3DGS를 통해 깊이있는 비전과 그래픽스 도메인을 공부하게 되는 것 같습니다.
일상에서 늘 접해왔던 영상과 이미지들에도 무심코 지나쳤던 수많은 CS 기술들이 있음을 또 한 번 느낍니다.
이제 게임을 한 번 해도 이건 그냥 만들어진게 아니라는 것을 생각하게 돼요.
가장 가상 현실 영역을 현실감있게 느껴주는 부분이 바로 빛이라는 걸 알게 되었습니다.
왜 GTX 그래픽 카드에서 RTX 그래픽카드로 넘어간게 혁명인지도 실감했죠.
여러 방향에서 이미지를 촬영하면 그 이미지에 가지고 있는 정보는 크게 색과 카메라의 pose가 있습니다. View Synthesis라 함은 이러한 여러 각도에서 찍어서 얻은 이미지를 학습하면 이러한 이미지들을 학습하여 우리가 바라보지 않았던, 못했던 각도에서의 모습조차도 우리가 거기서 촬영한 것처럼 만들어낼 수 있다는 것을 이야기합니다.
여기서 짚고 넘어갈 것이 여기서 말하는 색은 단순히 RGB가 아닙니다.

같은 빨간색의 사과라 할지라도, 우리는 어느 빛 아래에서 혹은 빛이 없다면 같은 빨간색이라도 과연 그 빨간색이 온전히 빨간색으로 보일까요?
그렇지 않습니다.
과하게 밝은 곳은 심하게는 백색, 빛이 거의 없다면 검은색으로도 보일 것입니다.
위 사과 사진에서 사과 밑부분은 검은색에 가깝게 보이는 것을 확인할 수 있어요.
그렇다고 빛이 있더라도 항상 백색으로 보이지는 않을 것이고, 자리를 옮겨 다른 곳에서 쳐다보면 빨간색으로 보일 수 있겠지만 이 빨간색도 진하기가 다르게 보이겠죠.
이러한 경우를 모두 고려해서 그래픽스 분야, 넓게는 물리학(광학)과 수학 분야에서는 Spherical Harmonics(SH)라는 색의 개념을 사용합니다.
다시 본론으로 돌아오면,
단순히 RGB를 학습해서 이미지를 만들어냈다면 사실적인 결과물을 얻기 힘들 것입니다. 그렇기에 앞서 언급했던 SH가 도입되면 카메라의 각도, 방향과 같은 변수또한 계산하여 학습되지 않은 view도 우리가 바라본 것처럼 만들어낼 수 있게 되는 것이겠죠.
이 view systhesis 개념에서 NeRF를 넘어서는 또 하나의 SOTA가 만들어진겁니다.
Abstract
이 논문에서는 실시간(Real-time)으로 앞서 이야기한 고품질의 새로운 시점 합성(Novel view synthesis)을 가능하게 하는 3D Gaussian Splatting 기술을 제안하고 있습니다. 기존의 NeRF 방식은 MLP의 많은 연산 과정 때문에 렌더링 속도가 느리다는 한계점이 있고 이를 해결하는 것을 보여줍니다.
이산적인 포인트와 연속적인 Volume Rendering의 장점을 결합한 세 가지 요소를 제안합니다.
3DGS의 Main Contribution
- 3D Gaussians: 장면을 표현하는 유연하고 명시적인 기하학적 Primitive(원시형)
- Adaptive Density Control: 최적화 과정에서 Gaussian을 복제(duplicate)하거나 분할(split)하여 밀도를 조절
- Fast Tile-based Rasterizer: GPU에 최적화된 실시간 미분 가능 렌더러

논문에서는 이전에 한때 SOTA였던 InstantNGP, Plenoxels, Mip-NeRF360 등과 비교해봤을 때 fps도 매우 높은데도 불구하고 학습 시간과 PSNR 점수가 현저하게 높게 나온 것을 볼 수 있습니다.
Introduction
현대의 3D Reconstruction은 크게 두 가지 흐름으로 발전해 왔습니다.
- Explicit Method(명시적, 이산적 방식): Point Cloud나 Mesh를 사용하며, GPU의 레스터화에 최적화되어 렌더링 Cost가 낮지만 부드러운 최적화가 어렵습니다.
- Implicit Method(암시적, 연속적 방식): NeRF처럼 Volume 정보를 수학적 함수로 정의하여 고품질 합성이 가능하지만, 픽셀당 수많은 Sampling이 필요해 렌더링이 매우 느립니다.
즉, 서로 상충하는 장단점이 있네요.
여기서 3DGS는 Abstract의 Figure에서 볼 수 있듯이 위 두 Method의 장점을 결합하여, 1080p 해상도에서 30FPS 이상의 실시간 속도를 유지하면서도 SOTA의 품질을 달성했습니다.
Related Work
Neural Rendering
NeRF는 중요도 샘플링과 Positional Encoding으로 품질을 높였습니다. 하지만 MLP 연산 비용이 컸죠. 이후 InstantNGP나 Plenoxels 등이 속도를 개선하려 했으나 여전히 빈 공간(Empty Space) 처리에 한계가 있었습니다.
Point-Based Rendering
포인트를 타원체나 Surfel(서펠)로 흩뿌려 빈 공간을 채우는 Splatting 기법이 발전해 왔으며, 3DGS는 이를 기반으로 미분 가능한 구조를 설계했습니다.
Differentiable 3D Gaussian Splatting
장면을 구성하는 각 3D Gaussian은 중심점(Mean, $\mu$)과 공분산 행렬(Covariance, $\Sigma$)로 정의됩니다.
Anisotropic Covariance
Gaussian이 단순한 구 형태가 아니라, 표면의 질감에 따라 납작하거나 길쭉하게 변할 수 있도록 비등방성(Anisotropic) 성질을 부여합니다. 최적화 중 $\Sigma$가 유효한 행렬(Positive semi-definite)이어야 하므로, 이를 스케일링($S$)과 회전($R$) 행렬로 분해하여 학습합니다.
Rendering(Image Formation)
NeRF의 볼륨 렌더링 수식과 포인트 기반의 알파 블렌딩 수식은 수학적으로 동일한 뿌리를 가집니다.
물리 법칙을 투명한 유리판들을 순서대로 겹치는 문제로 치환한 겁니다. NeRF처럼 안개의 밀도를 일일이 따지지 않고, 2D Gaussian의 형태와 고유 불투명도를 곱해 직접 알파값을 계산합니다.
Optimization & Adaptive Density Control
학습은 SfM(Structure-from-Motion)에서 얻은 sparse point cloud로 시작합니다.

Loss Function
픽셀 정확도를 위한 $L_1$ 손실과 이미지 구조를 보존하는 D-SSIM을 결합합니다.
Density Control
지능적 밀도 제어

가우시안이 부족하거나 과한 곳을 판단해서 배치를 조절합니다.
- Clone: 기하 구조가 부족한 곳(Under-reconstruction은 가우시안을 복제하여 디테일을 살립니다.
- Split: 하나의 큰 가우시안이 너무 넓은 영역을 덮을 때(Over-reconstruction)는 이를 1.6배 작은 두 개로 나눕니다.
- Pruning: 투명도가 너무 낮거나 크기가 너무 커진 가우시안은 주기적으로 제거합니다.
Fast Tile-based Rasterizer
실시간 렌더링을 위해 설계된 새로운 래스터라이저입니다.
- Tiling: 화면을 16 * 16 타일로 나누고 가우시안을 할당합니다.
- Radix Sort: 타일 ID와 깊이 값을 기반으로 GPU Radix Sort를 실행하여 가우시안을 정렬합니다.
- Alpha Saturation: 앞에서부터 순차적으로 계산하다가 누적 투명도가 1에 도달하면 해당 픽셀의 연산을 즉시 종료합니다.
Results

품질면에서 Mip-NeRF360과 대등하거나 능가하는 수준의 PSNR, SSIM, LPIPS 점수를 기록했습니다.
속도면에서 Mip-NeRF360이 48시간 학습할 때, 3DGS는 35-45분 만에 수렴하며 렌더링은 100 FPS 이상을 기록합니다.

Conclusion & Limitations
3DGS는 고품질 실사 렌더링과 실시간 성능이 공존할 수 없다는 편견을 깨뜨린 연구라고 볼 수 있습니다. 하지만 여전히 다음과 같은 한계점이 존재합니다.
- 수백만 개의 가우시안 파라미터 저장으로 인한 디스크 용량 부담
- 학습되지 않은 시점에서의 Popping artifact나 Blurriness
- 정적인 장면에 최적화되어 동적 장면(Dynamic scenes) 처리가 어렵다는 점
Volume과 같이 안개 형태가 아닌 gaussian이라는 셀로판지(?)가 집합으로 더 선명하게 세상을 그려낼 수 있다는 것.
어찌보면 정말 많은 점묘화로, 정확히는 가우시안묘화(?)로 만들어낸 실사같은 렌더링 결과를 보여주었다는 것.
이러한 기술이 더더욱 경량화되고 최적화되면 실사같은 게임이 가능하게 될까요?

레디플레이어원의 세상이 실제로 올까 라는 상상을 한 번 해봅니다.
'PAPER REVIEW' 카테고리의 다른 글
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!