반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1506.02640

 

You Only Look Once: Unified, Real-Time Object Detection

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabili

arxiv.org

 

 

 

0. Title


You Only Look Once: Unified, Real-Time Object Detection

-> 넌 한번만 본다?

통합되고 리얼타임인 객체탐지 모델인가 봅니다...

 

 

 

1. Abstract


object detection의 새로운 접근법인 YOLO를 소개하려고 한다.

이전 연구들은 분류기를 탐지를 위해서 사용해왔다.

하지만, 우리는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률을 회귀 문제로 생각하였다.

단일 뉴럴 네트워크는 바운딩 박스와 클래스 확률을 한 평가에서 풀 이미지로부터 직접 예측한다.

전체 탐지 파이프라인이 하나의 네트워크이기 때문에 end-to-end로 최적화될 수 있다.

 

우리의 통합된 아키텍처는 매우매우 빠르다.

YOLO는 지역적인 에러를 만들기는 하지만, 배경에서 틀린 것을 맞다고 예측하는 것이 적다는 장점이 있다.

마지막으로, YOLO는 물체의 일반적인 표현을 학습한다.

YOLO는 R-CNN보다 성능이 좋다.

 

Figure 1: The YOLO Detection System

 

 

 

 

 

 

반응형
반응형

 

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1504.08083

 

Fast R-CNN

This paper proposes a Fast Region-based Convolutional Network method (Fast R-CNN) for object detection. Fast R-CNN builds on previous work to efficiently classify object proposals using deep convolutional networks. Compared to previous work, Fast R-CNN emp

arxiv.org

 

 

 

0. Title


Fast R-CNN

-> R-CNN을 사용하고, 빠른가보다...

 

 

1. Abstract


이 논문은 빠른 object detection에서 사용되는 Region-based 컨볼루션 네트워크를 제안한다.

Fast R-CNN은 딥한 컨볼루션 네트워크를 사용한 객체 proposal을 효율적으로 분류하기 위해 이전의 연구에 바탕으로 하고 있다.

이전 연구와 비교해서,

Fast R-CNN은 학습과 테스트 속도를 향상시키는 동시에 detection 정확도를 높이기 위해 여러가지의 혁신을 했다.

 

 

 

2. Introduction


최근에 딥한 ConvNet은 이미지 분류와 객체 탐지에서 훌륭한 성과를 보이고 있다.

이미지 분류와 다르게 객체 탐지는 더 복잡한 방법을 사용해야 하기 때문에 좀 더 어렵다.

이 복잡성 때문에 현재의 접근법은

멀티 스테이지 파이프라인이고, 이는 매우 느리고 우아하지 않다.

 

복잡성은 디텍션이 정확한 물체의 위치를 요구하기 때문이다.

첫째로, 여러개의 후보 물체 위치(="proposal")가 연산되어야 한다.

둘째로, 이 후보자(="proposal")들은 대략적인 위치만을 제공하기 때문에 정확한 위치를 알기 위해서는 정제를 해야한다.

따라서 이 문제에 대한 해결책은 속도, 정확도, 그리고 간단함이 포함되어야 한다.

 

이 논문에서는 object proposal들을 분류하고, 그들의 위치를 정제하는 과정을 싱글 스테이지로 만들 것이다.

 

 

R-CNN의 경우 region proposal을 selective search로 수행한 뒤 약 2,000개에 달하는 후보 이미지 각각에 대해서 convolution 연산을 수행하게 됩니다. 이 경우 한 이미지에서 feature을 반복해서 추출하기 때문에 비효율적이고 느리다는 단점이 있습니다.

Fast R-CNN에서는 후보 영역의 classification과 Bounding Box regression을 위한 feature을 한 번에 추출하여 사용합니다.

R-CNN과의 차이는 이미지를 Sliding Window 방식으로 잘라내는 것이 아니라 해당 부분을 CNN을 거친 Feature Map에 투영해, Feature Map을 잘라낸다는 것입니다.

이렇게 되면 이미지를 잘라 개별로 CNN을 연산하던 R-CNN과는 달리 한 번의 CNN을 거쳐 그 결과물을 재활용할 수 있으므로 연산수를 줄일 수 있습니다.

이때 잘라낸 feature map의 영역은 여러 가지 모양과 크기를 가지므로, 해당 영역이 어떤 class에 속하는지 분류하기 위해 사용하는 fully-connected layer에 배치(batch) 입력값을 사용하려면 영역의 모양과 크기를 맞추어 주어야 하는 문제가 생깁니다.

논문에서는 RoI(Region of Interest) pooling이라는 방법을 제안해서 후보 영역에 해당하는 특성을 원하는 크기가 되도록 pooling하여 사용합니다.

(출처 : https://velog.io/@cha-suyeon/%EB%94%A5%EB%9F%AC%EB%8B%9D-Object-Detection-Architecture-1-stage-detector%EC%99%80-2-stage-detector)

 

# R-CNN 아키텍쳐

Figure 1. R-CNN architecture.

 

# Fast R-CNN 아키텍쳐

Figure 1. Fast R-CNN architecture.

 

 

 

 

 

 

 

 

반응형
반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1506.01497

 

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottle

arxiv.org

 

 

0. Title


Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

-> Faster R-CNN은 Region Proposal Network를 이용하는 리얼타임 Object Detection 모델인가보다..

리얼타임이면 속도가 빨라야 하니까 Faster 이라는 이름이 붙지 않았을까??

 

 

1. Abstract


SOTA 모델들은 객체의 위치를 찾기 위해 region proposal 알고리즘이 의존하고 있다.

SPPnet과 Fast R-CNN과 같은 모델은 region proposal을 보틀넥으로 노출시킴으로써 이 디텍션 네트워크의 러닝타임을 줄였다.

이 논문에서는 우리는 풀 이미지 컨볼루션 피쳐를 공유하는 Region Proposal Network(RPN)을 소개하려고 한다.

RPN는 fully convolution network이고 동시에 각각의 위치에서 물체 바운드와 스코어를 예측한다.

RPN은 높은 퀄리티의 region proposal를 만들기 위해 end-to-end로 학습된다.

우리는 나아가 Fast R-CNN과 RPN을 그들의 컨볼루션 피쳐를 공유함으로써 하나의 네트워크로 합친다. -- 어텐션 매커니즘과 함께

RPN 컴포넌트는 통합된 네트워크에서 어디를 더 주목해야 되는지 알려준다.

 

Fast R-CNN은 반복되는 CNN 연산을 크게 줄여냈지만 region proposal 알고리즘이 병목이 됩니다. Faster R-CNN에서는 기존의 Fast R-CNN을 더 빠르게 만들기 위해서 region proposal 과정에서 RPN(Region Proposal Network)라고 불리는 neural network를 사용합니다.

이미지 모델을 해석하기 위해 많이 사용하는 CAM(Classification Activation Map)에서는 object를 분류하는 태스크만으로도 활성화 정도를 통해 object를 어느 정도 찾을 수 있습니다.

이처럼 먼저 이미지에 CNN을 적용해 feature을 뽑아내면, feature map만을 보고 object가 있는지 알아낼 수 있습니다. 이때 feature map을 보고 후보 영역들을 얻어내는 네트워크가 RPN입니다. 후보 영역을 얻어낸 다음은 Fast R-CNN과 동일합니다.

Figure 2: Faster R-CNN is a single, unified network for object detectionn. The RPN module serves as the ‘attention’ of this unified network

 

(출처 : https://velog.io/@cha-suyeon/%EB%94%A5%EB%9F%AC%EB%8B%9D-Object-Detection-Architecture-1-stage-detector%EC%99%80-2-stage-detector)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1708.02002

 

Focal Loss for Dense Object Detection

The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In contrast, one-stage detectors that are applied over a regular, dense sampl

arxiv.org

2018년 발행

 

 

0. Title


Focal Loss for Dense Object Detection

-> 응집된 Object Detection에서 사용하는 loss function인가 보다...

 

 

우리는 표준 cross entropy 에서 factor (1 − pt)^γ 를 추가한 Focal Loss를 소개하려 한다.

γ > 0로 설정함으로써 상대적인 loss를 줄일 수 있다.

 

focal loss는 굉장히 정확한 응집된 object detector를 학습시키는 것을 가능하게 하였다. 쉬운 백그라운드 예시의 엄청 많은 출현에서

 

 

1. Abstract


현재 가장 높은 정확도를 가진 object detectors은 2 스테이지 기반의 R-CNN이다.

 

 

 

 

반응형
반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1910.12037

 

Region Mutual Information Loss for Semantic Segmentation

Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores

arxiv.org

2019년 발행

 

 

0. Title


Region Mutual Information Loss for Semantic Segmentation

-> Semantic Segmentation에서 사용하는 loss function인가보다..

영역끼리 상호작용하는 정보를 사용하나?

 

 

1. Abstract


Semantic segmentation은 컴퓨터 비전에서 근본적인 문제이다.

대부분의 Semantic segmentation 모델은 최적화 기준으로 픽셀단위의 loss를 사용한다.

하지만, 픽셀 단위의 loss는 이미지 안에서 픽셀 간의 의존관계를 무시한다.

픽셀들간의 관계를 활용한 여러 가지 방법이 연구되고 있다. (CRF나 pixel affinity based methods)

그러나 이런 방법들은 추가적인 모델 브랜치와 메모리, inference time를 필요로 한다.

 

이 논문에서 우리는 RMI loss를 개발하여 픽셀 간의 의존관계를 더 간단하고 효율적으로 계산하기 위한 방법을 제안한다.

픽셀 단위의 loss와는 다르게, RMI는 하나의 픽셀을 표현할 때 다른 픽셀들도 이 픽셀을 표현하기 위해 사용한다.

그리고 이미지에서 각각의 픽셀을 위해 픽셀 간의 관계 정보를 담은 다차원 포인트를 인코딩한다.

그 이미지는 이 고차원 포인트의 다차원 분포에 캐스팅된다.

 

따라서 예측값과 실제값은 mutual information을 극대화함으로써 고차 일관성을 달성할 수 있다. 

게다가, MI의 실제값이 계산하기 어려움으로, MI의 하한을 계산하고 MI의 실제값을 최대화하기 위해 하한을 최대화한다.

따라서 RMI는 학습 과정에서 적은 추가적인 연산량을 요구한다 그리고 테스트 과정에서 오버헤드가 없다.

경험적 결과는 RMI가 충분하고 일관된 성과를 낼 수 있다는 것을 보여준다.

 

 

2. Methodology


# RMI loss의 기본 아이디어

An image region and its corresponding multi-dimensional point.

이미지 영역과 이와 대응되는 다차원 포인트이다.

이러한 전략을 이용하면 이미지가 다차원 분포에 캐스트될 수 있여 픽셀간의 관계를 인코딩할 수 있다.

 

이렇게 예측값과 실제값의 두가지 다차원 분포를 가진 후에,

우리의 목표는 그 둘 간의 공통점을 최대화하는 것이다.

-> MI의 Lower-bound를 최대화함으로써 달성

 

# mutual information(MI)의 Lower-bound로 구함

계산의 효율을 위해 MI의 Lower-bound를 이용한다.

 

# mutual information I(Y ; P) 구하는 방법

 

 

 

# 더 알아볼 것


- Cross-Entropy Loss

- Focal Loss

- Ohem Cross Entropy

 

 

반응형
반응형
반응형

+ Recent posts