반응형

 

 

1. 제목

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM

=> 뉴럴 네트워크를 이용해서 절대적이고 확장가능한 Encoding을 한다.

 

2. Abstract

요즘 slam이 많이 발전하고 있지만, too-much smoothed scene reconstruction 문제와 scaling up이 잘 되지 않는 문제가 있었다. 

이 문제는 단순하게 완전 연결된 뉴럴 네트워크 때문이고, 이는 지역적인 정보를 포함하지 못 한다.

NICE-slam은 계층적인 장면 표현을 통해 지역적인 정보도 포함한다.

이는 더 큰 실내 환경에서도 잘 작동한다.

 

 

3. Structure

대충 보면,

RGB-D 데이터를 넣으면

Depth 데이터로부터 Depth Loss를 최소화한다.

RGB 데이터로부터 Photometric Loss를 최소화한다.

그렇게 생성된 Depth와 RGB 데이터를 넣는다.

계층적으로 feature를 뽑아서(tri-linear interpolation?)

coarse level / mid level / fine level / color level 로 나누어서 encoding한다. => 각자 뉴럴 네트워크에서 연산한 결과를 합친다.

뽑아낸 feature를 camera pose와 함께 넣어서 slam pose를 뽑는다.

* Mapping: The backpropagation only updates the hierarchical scene representation;

* Tracking: The backpropagation only updates the camera pose.

 

 

 

3. Method

1) Hierarchical Scene Representation

Mid-&Fine-level Geometric Representation

* 아래 수식들은 위의 structure 이미지를 보면서 따라가면 된다.

- (1) 수식 : mid level

자... 이걸 해석해보자면!

은 3개의 feature grid 중 하나이다.

f1 은 3개의 feature grid 에 대응되는 decoder(MLP)이다.

p 는 3d 포인트이다. 

 

- (2) 수식 : fine level

 

- (3) 수식 : final level occupancy

 

 

Coarse-level Geometric Representation

 

반응형
반응형
반응형
반응형

 

이미지 유사성을 파악하기 위한 알고리즘이다.

 

알고리즘 수행 과정

- SIFT와 같은 Descriptor로 이미지의 특징점을 파악한다.

- 특징점을 이용해 이미지를 이른바 시각적 단어의 집합으로 파악하고, 히스토그램을 구성하여 이미지 당 Words의 발생빈도를 통계 낸다.

- 이미지 히스토그램을 이용해 이미지 간의 유사성을 보다 효율적으로 파악한다

  (물론 단점도 존재한다. 보완한 것이 아래의 TF-IDF 가중치 변환)

 

출처 https://dhpark1212.tistory.com/entry/Bag-of-Visual-Words

반응형
반응형

 

 

https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

 

SIFT(Scale Invariant Feature Transform)

이미지 데이터를 스케일에 불변하고 로컬 feature에 상대적인 좌표계 Feature로 변환시키는 알고리즘이다. 

 

SIFT는 각각의 픽셀의 그래디언트 벡터를 계산한다.

그리고 그래디언트 방향의 정규화된 히스토그램을 그린다.

 

 SIFT의 4단계

1. Scale-space extrema detection

: diffence-of-gaussian function을 이용하여 크기와 방향에 불변하는 잠재적인 포인트를 정한다. 

2. Keypoint localization

: model이 location과 scale을 결정한다. 키포인트는 stability로 결정된다.

3. Orientation assignment

: 각각의 키포인트에 로컬 이미지 그래디언트값에 따라 방향이 할당된다.

4. Keypoint descriptor

: 모든 키포인트 주변에서 로컬 이미지 그래디언트값이 계산된다. 

 

SIFT descriptor는 16x16의 이웃을 생성한다.

이는 각각 4x4의 subregions로 나누어져있다.

각각의 픽셀에서(subregion과 함께)

각각의 방향을 8가지 방향 중 하나로 양자화하고,  magnitude에 의한 각각의 벡터의 기여도의 가중치를 구함으로써

SIFT는 픽셀의 그래디언트 벡터를 히스토그램에 추가한다.

각각의 그래디언트 방향은 가우시안 스케일 n/2로 가중치를 가진다. (n = 이웃의 크기)

그래디언트 방향 값은 이웃 빈들에게로 분산되며, 이때 trilinear interpolation을 사용한다. (경계 효과를 줄이기 위해)

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

https://arxiv.org/pdf/1708.03852.pdf

Measurement Preprocessing

visual measurements에서는 연속적인 프레임 사이의 feature를 쫓고,

가장 최근의 프레임에서 새로운 feature를 찾는다.

imu measurement는 연속적인 두 프레임 사이에서 pre-integration을 한다.

IMU bias도 고려한다.

 

1) Vision processing Front-end

각각의 이미지에서 feature들은 KLT sparse optical flow 알고리즘에 의해서 추적된다.

각 이미지에서 최소한의 피쳐 개수를 유지하기 위해 새로운 corner feature들이 각 이미지에서 추출된다.

detector는 두 인접한 feature들 간의 최소 픽셀 간격을 설정함으로써 평준한 feature 분포를 보장한다.

2d feature들은 먼저 왜곡을 제거시킨 후, outlier rejection을 수행한 후, unit sphere로 투영된다.

outlier rejection은 RANSAC을 사용하여 수행된다.

 

키프레임은 두 가지 기준에 의해서 선정한다.

첫 번째, 평균 parallax이다.

현재 프레임과 가장 최근의 프레임 사이의 parallax가 특정 threshold를 넘으면

우리는 이 프레임을 키프레임으로 선정한다.

이 때, parallax는 translation 뿐만 아니라 rotation에 의해서도 유발되기 때문에

gyroscrope measurements에 short-term integration을 수행하여 parallax를 구할 때 사용한다.

두 번째, tracking quality이다.

만약 추적된 피쳐가 특정 threshold보다 적으면 우리는 이를 키프레임이라고 정하였다.

이는 피쳐 추적이 완전히 멈추는 것을 방지하기 위함이다

 

 

IMU pre-integration

이 논문에서는 IMU bias correction을 포함한 것이 키포인트이다.

(1) 수식은 gyroscrope과 accelerometer의 raw 데이터를 표시한 것이다.

bat, bwt는 gyro와 accel의 bias이다. 이 bias는 무작위로 모델링되었고, 그 미분값은 가우시안 함수를 따른다.

na, nw는 gyro와 accel의 노이즈이다. 우리는 이 노이즈를 가우시안으로 가정하였다.

 

(3), (4) 수식을 보면,

tk와 tk+1의 두 이미지 프레임의 position, velocity, orientation(quaternion)은

tk와 tk+1 사이의 IMU measurement값으로 보정되는 것을 알 수 있다.

 

  • 이전 논문 
    • T. Lupton and S. Sukkarieh, “Visual-inertial-aided navigation for highdynamic motion in built environments without initial conditions,” IEEE Trans. Robot., vol. 28, no. 1, pp. 61–76, Feb. 2012.
    • S. Shen, N. Michael, and V. Kumar, “Tightly-coupled monocular visualinertial fusion for autonomous flight of rotorcraft MAVs,” in Proc. of the IEEE Int. Conf. on Robot. and Autom., Seattle, WA, May 2015.
    • C. Forster, L. Carlone, F. Dellaert, and D. Scaramuzza, “IMU preintegration on manifold for efficient visual-inertial maximum-a-posteriori estimation,” in Proc. of Robot.: Sci. and Syst., Rome, Italy, Jul. 2015.
Estimator Initialization

Monocular tightly-coupled visual-inertial odometry는 non-linear system이다.

왜냐하면 단안의 카메라에서 scale을 직접적으로 볼 수 없기 때문이다.

visual, IMU measurements 를 잘 융합시키기 위해서는 초기값 설정이 매우 중요하다. 

반응형
반응형

 

 

feature-based 3d reconstruction 방법은

1) 특징점 추출과 매칭

2) 3차원 정보 추출

3) Bundle Adjustment

의 세 단계로 나눌 수 있다.

 

BA는 이전 단계에서 계산한 3차원 점들과

카메라 위치 및 각도에 관련된 오차들을 최소화할 수 있다.

 

 

Bundle Adjustment 란


- 맵포인트 3D 위치 Xw,j (3차원 점)

- 키프레임 포즈 Tiw (Spatial Euclidean 3군)

를 2차원 키포인트 xi,j에 대하여 reprojection error을 최소화시키도록 최적화시키는 것이다.

* w는 world 좌표계

* 프레임은 이미지, 포인트는 점

* 소문자 x와 대문자 X의 의미가 다르다.

 

cost function 은


 

 

맵포인트 j와 키프레임 i 일 때의 error 인 ei,j 는


 

 

projection function


이다. (f는 focal length, c는 principal point)

 

* 참고자료

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts