0. Title
DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras
-> 이미지를 딥러닝으로 학습시켜 만든 SLAM 시스템인가보다,, 단안, 스테레오, RGB-D 카메라환경에서 쓰일 수 있나보다.
1. Introduction
2. Structure
: 단안, 스테레오, 혹은 RGB-D 데이터를 넣어주면 End-to-End로 SLAM pose와 depth를 구하는 것으로 보인다.
: LSTM의 구조를 단순화시킨 GRU를 이용한다. 프레임 그래프에서 엣지를 대상으로 작동하며, 플로우 변화를 예측하여 DBA(Dense Bundle Adjustment) layer를 통해 depth와 pose를 업데이트한다.
3. Approach
1) Feature Extraction and Correlation
RAFT 와 비슷한 방법으로 모든 새로운 이미지에서 feature를 추출한다.
- Feature Extraction
: feature extraction network에 의해 피쳐가 뽑아진다. 네트워크는 6개의 residual block과 3개의 downsampling layer로 구성되어 있다. 이는, 1/8 이미지 resolution에서 촘촘한 피쳐맵을 만든다.
RAFT와 유사하게, 두개의 네트워크를 사용한다. : 피쳐 네트워크와 컨텍스트 네트워크이다.
피쳐 네트워크는 correlation volume을 구하고, 컨텍스트 네트워크는 각 어플리케이션의 update operator에 주입된다.
- correlation pyramid
: 프레임 그래프에 있는 모든 엣지에 대하여, 모든 피쳐 페어에 대하여 dot product를 수행함으로써 4d correlation volume을 계산한다.
(한 피쳐 당 x,y 한 묶음이므로 2x2 = 4d)
즉, structure의 인풋 데이터 중 하나인, Cij 는 모든 피쳐에 대한 dot product 결과이다.
2) Update Operator
'Programming > SLAM' 카테고리의 다른 글
Deep Learning based Feature extraction 기법 (0) | 2023.05.24 |
---|---|
iMap : Implicit Mapping and Positioning in Real-Time 논문 리뷰 (0) | 2023.05.21 |
SLAM 비선형 최적화 기법 (0) | 2023.05.01 |
NICE-SLAM 논문리뷰 (0) | 2023.03.28 |
Optical Flow란? (0) | 2023.02.19 |