반응형
반응형
반응형

 

이미지 유사성을 파악하기 위한 알고리즘이다.

 

알고리즘 수행 과정

- SIFT와 같은 Descriptor로 이미지의 특징점을 파악한다.

- 특징점을 이용해 이미지를 이른바 시각적 단어의 집합으로 파악하고, 히스토그램을 구성하여 이미지 당 Words의 발생빈도를 통계 낸다.

- 이미지 히스토그램을 이용해 이미지 간의 유사성을 보다 효율적으로 파악한다

  (물론 단점도 존재한다. 보완한 것이 아래의 TF-IDF 가중치 변환)

 

출처 https://dhpark1212.tistory.com/entry/Bag-of-Visual-Words

반응형
반응형

 

 

https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

 

SIFT(Scale Invariant Feature Transform)

이미지 데이터를 스케일에 불변하고 로컬 feature에 상대적인 좌표계 Feature로 변환시키는 알고리즘이다. 

 

SIFT는 각각의 픽셀의 그래디언트 벡터를 계산한다.

그리고 그래디언트 방향의 정규화된 히스토그램을 그린다.

 

 SIFT의 4단계

1. Scale-space extrema detection

: diffence-of-gaussian function을 이용하여 크기와 방향에 불변하는 잠재적인 포인트를 정한다. 

2. Keypoint localization

: model이 location과 scale을 결정한다. 키포인트는 stability로 결정된다.

3. Orientation assignment

: 각각의 키포인트에 로컬 이미지 그래디언트값에 따라 방향이 할당된다.

4. Keypoint descriptor

: 모든 키포인트 주변에서 로컬 이미지 그래디언트값이 계산된다. 

 

SIFT descriptor는 16x16의 이웃을 생성한다.

이는 각각 4x4의 subregions로 나누어져있다.

각각의 픽셀에서(subregion과 함께)

각각의 방향을 8가지 방향 중 하나로 양자화하고,  magnitude에 의한 각각의 벡터의 기여도의 가중치를 구함으로써

SIFT는 픽셀의 그래디언트 벡터를 히스토그램에 추가한다.

각각의 그래디언트 방향은 가우시안 스케일 n/2로 가중치를 가진다. (n = 이웃의 크기)

그래디언트 방향 값은 이웃 빈들에게로 분산되며, 이때 trilinear interpolation을 사용한다. (경계 효과를 줄이기 위해)

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

https://arxiv.org/pdf/1708.03852.pdf

Measurement Preprocessing

visual measurements에서는 연속적인 프레임 사이의 feature를 쫓고,

가장 최근의 프레임에서 새로운 feature를 찾는다.

imu measurement는 연속적인 두 프레임 사이에서 pre-integration을 한다.

IMU bias도 고려한다.

 

1) Vision processing Front-end

각각의 이미지에서 feature들은 KLT sparse optical flow 알고리즘에 의해서 추적된다.

각 이미지에서 최소한의 피쳐 개수를 유지하기 위해 새로운 corner feature들이 각 이미지에서 추출된다.

detector는 두 인접한 feature들 간의 최소 픽셀 간격을 설정함으로써 평준한 feature 분포를 보장한다.

2d feature들은 먼저 왜곡을 제거시킨 후, outlier rejection을 수행한 후, unit sphere로 투영된다.

outlier rejection은 RANSAC을 사용하여 수행된다.

 

키프레임은 두 가지 기준에 의해서 선정한다.

첫 번째, 평균 parallax이다.

현재 프레임과 가장 최근의 프레임 사이의 parallax가 특정 threshold를 넘으면

우리는 이 프레임을 키프레임으로 선정한다.

이 때, parallax는 translation 뿐만 아니라 rotation에 의해서도 유발되기 때문에

gyroscrope measurements에 short-term integration을 수행하여 parallax를 구할 때 사용한다.

두 번째, tracking quality이다.

만약 추적된 피쳐가 특정 threshold보다 적으면 우리는 이를 키프레임이라고 정하였다.

이는 피쳐 추적이 완전히 멈추는 것을 방지하기 위함이다

 

 

IMU pre-integration

이 논문에서는 IMU bias correction을 포함한 것이 키포인트이다.

(1) 수식은 gyroscrope과 accelerometer의 raw 데이터를 표시한 것이다.

bat, bwt는 gyro와 accel의 bias이다. 이 bias는 무작위로 모델링되었고, 그 미분값은 가우시안 함수를 따른다.

na, nw는 gyro와 accel의 노이즈이다. 우리는 이 노이즈를 가우시안으로 가정하였다.

 

(3), (4) 수식을 보면,

tk와 tk+1의 두 이미지 프레임의 position, velocity, orientation(quaternion)은

tk와 tk+1 사이의 IMU measurement값으로 보정되는 것을 알 수 있다.

 

  • 이전 논문 
    • T. Lupton and S. Sukkarieh, “Visual-inertial-aided navigation for highdynamic motion in built environments without initial conditions,” IEEE Trans. Robot., vol. 28, no. 1, pp. 61–76, Feb. 2012.
    • S. Shen, N. Michael, and V. Kumar, “Tightly-coupled monocular visualinertial fusion for autonomous flight of rotorcraft MAVs,” in Proc. of the IEEE Int. Conf. on Robot. and Autom., Seattle, WA, May 2015.
    • C. Forster, L. Carlone, F. Dellaert, and D. Scaramuzza, “IMU preintegration on manifold for efficient visual-inertial maximum-a-posteriori estimation,” in Proc. of Robot.: Sci. and Syst., Rome, Italy, Jul. 2015.
Estimator Initialization

Monocular tightly-coupled visual-inertial odometry는 non-linear system이다.

왜냐하면 단안의 카메라에서 scale을 직접적으로 볼 수 없기 때문이다.

visual, IMU measurements 를 잘 융합시키기 위해서는 초기값 설정이 매우 중요하다. 

반응형
반응형

 

 

feature-based 3d reconstruction 방법은

1) 특징점 추출과 매칭

2) 3차원 정보 추출

3) Bundle Adjustment

의 세 단계로 나눌 수 있다.

 

BA는 이전 단계에서 계산한 3차원 점들과

카메라 위치 및 각도에 관련된 오차들을 최소화할 수 있다.

 

 

Bundle Adjustment 란


- 맵포인트 3D 위치 Xw,j (3차원 점)

- 키프레임 포즈 Tiw (Spatial Euclidean 3군)

를 2차원 키포인트 xi,j에 대하여 reprojection error을 최소화시키도록 최적화시키는 것이다.

* w는 world 좌표계

* 프레임은 이미지, 포인트는 점

* 소문자 x와 대문자 X의 의미가 다르다.

 

cost function 은


 

 

맵포인트 j와 키프레임 i 일 때의 error 인 ei,j 는


 

 

projection function


이다. (f는 focal length, c는 principal point)

 

* 참고자료

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

논문 링크입니다.

https://arxiv.org/pdf/1502.00956v2.pdf

2015년 2월 발행

 

0. Title

ORB-SLAM: a Versatile and Accurate Monocular SLAM System 

=> ORB SLAM에 대한 논문인 것 같다..

다용도의(혹은 변하기 쉬운) 정확한 단안 SLAM 시스템

 

1. Abstract

이 논문은 ORB-SLAM에 대해 소개하고 있다.

ORB-SLAM은 피쳐 베이스의 단안 SLAM 시스템이다.

ORB-SLAM은 실시간에서도, 좁거나 넓은 환경에서도, 실내나 실외 환경에서도 작동한다.

 

이 시스템은 심각한 motion clutter(움직임이 정돈되지 않고 어지러운 현상?)에 강하고

다양한 loop closing과 relocalization 베이스라인을 허용하고

완전 자동 초기화를 포함한다.  

 

우리는 모든 SLAM 과정(tracking, mapping, relocalization, and loop closing)에서 동일한 피쳐를 사용하는 새로운 시스템을 만들었다.

reconstruction의 포인트와 키프레임을 선택하는 전략으로 인해

어려운 상황에서도 잘 동작하며(robustness), 간결하고 추적 가능한 map을 생성할 수 있었다.

 

 

2. Conclusion and Decision

- 1) Conclusions

현재까지는 실시간 단안 SLAM 기법 중에 PTAM 이 가장 정확하다고 여겨진다. (https://www.robots.ox.ac.uk/~gk/publications/KleinMurray2007ISMAR.pdf)

PTAM의 백엔드가 bundle adjustment(ba)인 것은 우연이 아니다.

BA는 오프라인 Structure from Motion(SFM) 문제에서 표준으로 잘 알려져 있다.

 

PTAM의 가장 큰 성공 요인 중 하나는,

BA를 SLAM에 가져오고 실시간 환경에서 적용했다는 것이다.

 

우리 연구의 주요한 기여는 PTAM의 versatility를 확장시킴으로써 

다루기 힘든 환경에서 사용할 수 있게 만든 것이다. 

이를 위해, 아래의 요소들을 제외한 알고리즘을 바닥부터 설계하였다.

- Loop Detection (http://doriangalvez.com/papers/GalvezTRO12.pdf)

- Loop Closure procedure (http://www.roboticsproceedings.org/rss06/p10.pdf)  and Covisibility Graph (https://www.doc.ic.ac.uk/~ajd/Publications/strasdat_etal_iccv2011.pdf)

- the Optimization framework g2o (https://mengwenhe-cmu.github.io/Reading-Reports/Research/Localization/Graph_Optimization/g2o_A_General_Framework_for_Graph_Optimization/paper.pdf)

- ORB features (http://www.gwylab.com/download/ORB_2012.pdf)

 

 

우리는 spawn과 cull keyframes으로 매 프레임마다 키프레임을 생성할 수 있도록 하였다.

이것은 불필요하다면 결과적으로 제거되도록 설계되어 있다.

이렇게 유동적으로 map을 다룰 수 있는 기능

공회전이나 빠른 움직임과 같은 조건이 좋지 않은 상황에 매우 유리하다.

왜냐하면 동일한 곳에서 반복적으로 운영했을 때,

장면이 바뀔 때에만 map이 확장하기 때문이다.

 

 

- 2) Sparse/Feature-based vs. Dense/Direct Methods

최근의 실시간 단안 SLAM 알고리즘(DTAM, LSD-SLAM)들은 

환경의 dense나 semi-dense reconstruction를 수행할 수 있다.

동시에 카메라는 이미지 픽셀 intensity에 따라 직접적으로 최적화되며 localize 된다.

이러한 direct method는 피쳐 추출을 필요로 하지 않고, 이는 대응되는 결과물을 반영하지 못한다.

이들은 블러 되고, low-texture나 아스팔트처럼  high-frequency 환경에서 잘 작동한다.

 

하지만, direct method는 고유의 한계가 있다.

첫째, direct method는 표면 반사율 모델을 가정하여 실제 장면에서 그 결과물을 스스로 추출한다고 여긴다.

 이러한 광도계의 일관성은 매칭들의 베이스라인을 제한한다.

일반적으로 피쳐들이 허용하는 것보다 베이스라인이 좁다.

이것은 넓은 베이스라인을 요구하는 reconstruction 정확도에 큰 영향을 끼친다.

둘째, direct method는 일반적으로 컴퓨팅 비용을 많이 요구한다.

일례로 DTAM에서는 map의 크기가 점진적으로 증가한다.

 

반대로, feature-based method는 넓은 베이스라인을 허용하고, 

BA가 모든 센서 측정치를 사용하면서 카메라 포즈와 포인트를 공동으로 최적화시킨다.

(또한, sparse 한 map을 통해 메모리 효율성이 높아질 것으로 예상된다.) 

 

 

 

 

3. Introduction

- Bundle Adjustment

BA는 카메라 localization의 정확한 예측을 할 뿐만 아니라, sparse한 기하학적 reconstruction이 가능한 것으로 알려져 있다.

하지만 오랜 시간동안, 이 접근법은 Visual SLAM과 같은 실시간 동작에는 적합하지 않다고 여겨졌다.

Visual SLAM은 환경을 reconstruction하는 동시에 카메라 궤적을 추정해야하기 때문이었다.

하지만 최근에 더 정확한 결과를 위해서 다음과 같은 환경에서 BA의 적용이 불가피해졌다.

: 선택된 프레임들 중에 포인트를 대응시키는 것

: 키프레임의 개수가 늘어남에 따라 선택적으로 선별하여 불필요한 프레임을 줄여야 함

: 키프레임과 포인트들의 강력한 네트워크 설정 

: 키프레임 포즈와 포인트 위치의 non-linear한 초기의 추정

: 실시간에서 빠른 global optimization을 할 수 있는 능력

 

 

 

 

 

 

 

반응형

+ Recent posts