반응형

 

 

1. 제목

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM

=> 뉴럴 네트워크를 이용해서 절대적이고 확장가능한 Encoding을 한다.

 

2. Abstract

요즘 slam이 많이 발전하고 있지만, too-much smoothed scene reconstruction 문제와 scaling up이 잘 되지 않는 문제가 있었다. 

이 문제는 단순하게 완전 연결된 뉴럴 네트워크 때문이고, 이는 지역적인 정보를 포함하지 못 한다.

NICE-slam은 계층적인 장면 표현을 통해 지역적인 정보도 포함한다.

이는 더 큰 실내 환경에서도 잘 작동한다.

 

 

3. Structure

대충 보면,

RGB-D 데이터를 넣으면

Depth 데이터로부터 Depth Loss를 최소화한다.

RGB 데이터로부터 Photometric Loss를 최소화한다.

그렇게 생성된 Depth와 RGB 데이터를 넣는다.

계층적으로 feature를 뽑아서(tri-linear interpolation?)

coarse level / mid level / fine level / color level 로 나누어서 encoding한다. => 각자 뉴럴 네트워크에서 연산한 결과를 합친다.

뽑아낸 feature를 camera pose와 함께 넣어서 slam pose를 뽑는다.

* Mapping: The backpropagation only updates the hierarchical scene representation;

* Tracking: The backpropagation only updates the camera pose.

 

 

 

3. Method

1) Hierarchical Scene Representation

Mid-&Fine-level Geometric Representation

* 아래 수식들은 위의 structure 이미지를 보면서 따라가면 된다.

- (1) 수식 : mid level

자... 이걸 해석해보자면!

은 3개의 feature grid 중 하나이다.

f1 은 3개의 feature grid 에 대응되는 decoder(MLP)이다.

p 는 3d 포인트이다. 

 

- (2) 수식 : fine level

 

- (3) 수식 : final level occupancy

 

 

Coarse-level Geometric Representation

 

반응형

+ Recent posts