반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1506.01497

 

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottle

arxiv.org

 

 

0. Title


Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

-> Faster R-CNN은 Region Proposal Network를 이용하는 리얼타임 Object Detection 모델인가보다..

리얼타임이면 속도가 빨라야 하니까 Faster 이라는 이름이 붙지 않았을까??

 

 

1. Abstract


SOTA 모델들은 객체의 위치를 찾기 위해 region proposal 알고리즘이 의존하고 있다.

SPPnet과 Fast R-CNN과 같은 모델은 region proposal을 보틀넥으로 노출시킴으로써 이 디텍션 네트워크의 러닝타임을 줄였다.

이 논문에서는 우리는 풀 이미지 컨볼루션 피쳐를 공유하는 Region Proposal Network(RPN)을 소개하려고 한다.

RPN는 fully convolution network이고 동시에 각각의 위치에서 물체 바운드와 스코어를 예측한다.

RPN은 높은 퀄리티의 region proposal를 만들기 위해 end-to-end로 학습된다.

우리는 나아가 Fast R-CNN과 RPN을 그들의 컨볼루션 피쳐를 공유함으로써 하나의 네트워크로 합친다. -- 어텐션 매커니즘과 함께

RPN 컴포넌트는 통합된 네트워크에서 어디를 더 주목해야 되는지 알려준다.

 

Fast R-CNN은 반복되는 CNN 연산을 크게 줄여냈지만 region proposal 알고리즘이 병목이 됩니다. Faster R-CNN에서는 기존의 Fast R-CNN을 더 빠르게 만들기 위해서 region proposal 과정에서 RPN(Region Proposal Network)라고 불리는 neural network를 사용합니다.

이미지 모델을 해석하기 위해 많이 사용하는 CAM(Classification Activation Map)에서는 object를 분류하는 태스크만으로도 활성화 정도를 통해 object를 어느 정도 찾을 수 있습니다.

이처럼 먼저 이미지에 CNN을 적용해 feature을 뽑아내면, feature map만을 보고 object가 있는지 알아낼 수 있습니다. 이때 feature map을 보고 후보 영역들을 얻어내는 네트워크가 RPN입니다. 후보 영역을 얻어낸 다음은 Fast R-CNN과 동일합니다.

Figure 2: Faster R-CNN is a single, unified network for object detectionn. The RPN module serves as the ‘attention’ of this unified network

 

(출처 : https://velog.io/@cha-suyeon/%EB%94%A5%EB%9F%AC%EB%8B%9D-Object-Detection-Architecture-1-stage-detector%EC%99%80-2-stage-detector)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1708.02002

 

Focal Loss for Dense Object Detection

The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In contrast, one-stage detectors that are applied over a regular, dense sampl

arxiv.org

2018년 발행

 

 

0. Title


Focal Loss for Dense Object Detection

-> 응집된 Object Detection에서 사용하는 loss function인가 보다...

 

 

우리는 표준 cross entropy 에서 factor (1 − pt)^γ 를 추가한 Focal Loss를 소개하려 한다.

γ > 0로 설정함으로써 상대적인 loss를 줄일 수 있다.

 

focal loss는 굉장히 정확한 응집된 object detector를 학습시키는 것을 가능하게 하였다. 쉬운 백그라운드 예시의 엄청 많은 출현에서

 

 

1. Abstract


현재 가장 높은 정확도를 가진 object detectors은 2 스테이지 기반의 R-CNN이다.

 

 

 

 

반응형
반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1910.12037

 

Region Mutual Information Loss for Semantic Segmentation

Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores

arxiv.org

2019년 발행

 

 

0. Title


Region Mutual Information Loss for Semantic Segmentation

-> Semantic Segmentation에서 사용하는 loss function인가보다..

영역끼리 상호작용하는 정보를 사용하나?

 

 

1. Abstract


Semantic segmentation은 컴퓨터 비전에서 근본적인 문제이다.

대부분의 Semantic segmentation 모델은 최적화 기준으로 픽셀단위의 loss를 사용한다.

하지만, 픽셀 단위의 loss는 이미지 안에서 픽셀 간의 의존관계를 무시한다.

픽셀들간의 관계를 활용한 여러 가지 방법이 연구되고 있다. (CRF나 pixel affinity based methods)

그러나 이런 방법들은 추가적인 모델 브랜치와 메모리, inference time를 필요로 한다.

 

이 논문에서 우리는 RMI loss를 개발하여 픽셀 간의 의존관계를 더 간단하고 효율적으로 계산하기 위한 방법을 제안한다.

픽셀 단위의 loss와는 다르게, RMI는 하나의 픽셀을 표현할 때 다른 픽셀들도 이 픽셀을 표현하기 위해 사용한다.

그리고 이미지에서 각각의 픽셀을 위해 픽셀 간의 관계 정보를 담은 다차원 포인트를 인코딩한다.

그 이미지는 이 고차원 포인트의 다차원 분포에 캐스팅된다.

 

따라서 예측값과 실제값은 mutual information을 극대화함으로써 고차 일관성을 달성할 수 있다. 

게다가, MI의 실제값이 계산하기 어려움으로, MI의 하한을 계산하고 MI의 실제값을 최대화하기 위해 하한을 최대화한다.

따라서 RMI는 학습 과정에서 적은 추가적인 연산량을 요구한다 그리고 테스트 과정에서 오버헤드가 없다.

경험적 결과는 RMI가 충분하고 일관된 성과를 낼 수 있다는 것을 보여준다.

 

 

2. Methodology


# RMI loss의 기본 아이디어

An image region and its corresponding multi-dimensional point.

이미지 영역과 이와 대응되는 다차원 포인트이다.

이러한 전략을 이용하면 이미지가 다차원 분포에 캐스트될 수 있여 픽셀간의 관계를 인코딩할 수 있다.

 

이렇게 예측값과 실제값의 두가지 다차원 분포를 가진 후에,

우리의 목표는 그 둘 간의 공통점을 최대화하는 것이다.

-> MI의 Lower-bound를 최대화함으로써 달성

 

# mutual information(MI)의 Lower-bound로 구함

계산의 효율을 위해 MI의 Lower-bound를 이용한다.

 

# mutual information I(Y ; P) 구하는 방법

 

 

 

# 더 알아볼 것


- Cross-Entropy Loss

- Focal Loss

- Ohem Cross Entropy

 

 

반응형
반응형
반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1706.03762

2017년 발행

 

 

0. Title


Attention Is All You Need

-> Attention이 핵심인가 봅니다..

 

 

1. Abstract


이전에 지배적인 sequence 모델은 복잡한 인코더와 디코더를 포함한 recurrent나 CNN 모델을 기반으로 한 것이었다.

가장 좋은 모델은 어텐션 매커니즘을 통해 인코더와 디코더를 연결한 모델이다.

하지만, 우리는 recurrence and convolutions를 아예 생략하고 오직 어텐션 매커니즘에만 기반한 간단한 아키텍쳐인 Transformer를 제안한다.

두 가지 모델을 비교 실험해 봤을 때, 트랜스포머가 더 병행적이고 학습하는데 적게 시간을 걸린다는 점에서 우수하였다.

우리의 모델은 WMT 2014 Englishto-German translation task에서 28.4 BLEU를 달성하였다.

기존의 베스트 결과보다 향상된 결과이다.

 

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1505.04597

 

U-Net: Convolutional Networks for Biomedical Image Segmentation

There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated

arxiv.org

 

 

0. Title


U-Net: Convolutional Networks for Biomedical Image Segmentation

-> Biomedical Image Segmentation를 위한 컨볼루션 네트워크

 

 

1. Abstract


이 논문은 annotated 학습 샘플 데이터의 효율성을 높여주기 위하여 

데이터 증강의 강력한 이용에 의지한 네트워크와 학습 전략을 소개한다.

 

이 아키텍쳐는 컨텍스트를 추출하기 위하여 수축하는 경로와 

지역화를 위한 대칭되는 확장 경로로 이루어져 있다.

 

 

 

 

 

반응형

+ Recent posts