반응형

 

0. Title

DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras

-> 이미지를 딥러닝으로 학습시켜 만든 SLAM 시스템인가보다,, 단안, 스테레오, RGB-D 카메라환경에서 쓰일 수 있나보다.

 

1. Introduction

 

2. Structure

: 단안, 스테레오, 혹은 RGB-D 데이터를 넣어주면 End-to-End로 SLAM pose와 depth를 구하는 것으로 보인다.

 

: LSTM의 구조를 단순화시킨 GRU를 이용한다. 프레임 그래프에서 엣지를 대상으로 작동하며, 플로우 변화를 예측하여 DBA(Dense Bundle Adjustment) layer를 통해 depth와 pose를 업데이트한다.

 

3. Approach

1) Feature Extraction and Correlation

RAFT 와 비슷한 방법으로 모든 새로운 이미지에서 feature를 추출한다.

- Feature Extraction

: feature extraction network에 의해 피쳐가 뽑아진다. 네트워크는 6개의 residual block과 3개의 downsampling layer로 구성되어 있다. 이는, 1/8 이미지 resolution에서 촘촘한 피쳐맵을 만든다.

RAFT와 유사하게, 두개의 네트워크를 사용한다. : 피쳐 네트워크와 컨텍스트 네트워크이다.

피쳐 네트워크는 correlation volume을 구하고, 컨텍스트 네트워크는 각 어플리케이션의 update operator에 주입된다.

- correlation pyramid

: 프레임 그래프에 있는 모든 엣지에 대하여, 모든 피쳐 페어에 대하여 dot product를 수행함으로써 4d correlation volume을 계산한다.

(한 피쳐 당 x,y 한 묶음이므로 2x2 = 4d)

즉, structure의 인풋 데이터 중 하나인, Cij 는 모든 피쳐에 대한 dot product 결과이다.

 

2) Update Operator

반응형

+ Recent posts