반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1908.07919

 

Deep High-Resolution Representation Learning for Visual Recognition

High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution represen

arxiv.org

 

2020년 발행

 

 

0. Title


Deep High-Resolution Representation Learning for Visual Recognition

-> 고해상도의 표현을 학습하는 모델인가보다..

 

1. Abstract


위치가 중요한 휴먼 pose estimation이나 semantic segmentation, object detection과 같은 시각적 문제에는 고해상도 표현이 필수적이다. 

현존하는 sota 구조들은 인풋 이미지를 저해상도로 인코딩하고, 다시 고해상도로 회복시킨다.

우리의 모델(HRNet)은 모든 과정에서 고해상도를 유지한다. 여기에는 두가지 특징이 있다.

1) high-to-low resolution convolution이 평행으로 연결된다는 것이다.

2) 반복적으로 정보를 교환한다.

 

이로 인한 장점은, 결과적인 표현이 시맨틱하게 더 풍부하고 정확하다는 것이다. 

우리의 모델은 human pose estimation, semantic segmentation, and object detection과 같은 다양한 application에서 

우월성을 보여주었다.

 

 

2. Conclusion


이 논문을 통해, 우리는 시각 인식 문제를 위한 고해상도 네트워크를 발표하였다.

여기에는 기존 모델들과 다른 세 가지 근본적인 차이가 있다.

1) 고해상도와 저해상도의 컨볼루션을 평행하게 연결하였다는 것. (일렬로가 아니라)

2) 전체과정에서 고해상도를 유지하였다는 것

3) position sensitivity를 가지고 multi-resolution representation을 반복적으로 녹였다는 것

 

가장 우수한 결과는 HRNet이 컴퓨터 비전 문제의 백본으로서 강력하다는 것이다.

우리의 연구는 특정 비전 문제에 대한 네트워크 아키텍처를 구축하기 위한 연구도 장려하였다.

 

Discussion

여기에는 잘못된 이해가 있다: 해상도가 높을수록 HRNet의 메모리 비용이 많이 들 것이다. 라는

사실, HRNet을 세가지 application(pose estim, object detect, semantic seg)에 적용한 메모리 비용은 이전 SOTA와 유사하다.

게다가, 우리는  파이토치 1.0에서 runtime cost 비교를 요약했다

1) segmentation HRNet에서의 inference time은 훨씬 적다.

2) pose estimation HRNet에서의 training time은 조금 많이 든다.

우리는 semantic segmentation the inference cost 가 PSPNet and DeepLabv3 보다 상당히 적다는 것이다. 

 

 

Future and Followup works

semantic segmentation and instance segmentation를 위한 HRNet의 combination을 연구할 것이다.

현재로써는, mIOU의 결과가 있지만, OCR과 결합함으로써 더 해상도를 증가시켜볼 것이다.

 

 

 

Introduction


DCNN(Deep Convolution Neural Network)은 많은 컴퓨터비전 태스크에서 state-of-the-art한 결과를 내었다.

DCNN의 강점은 더 풍부한 표현을 할 수 있다는 것이다. (더 고해상도)

가장 최근에 개발된 classification network(AlexNet, VGGNet, etc)은 LeNet-5의 디자인 규칙을 따른다.

Fig. 1. The structure of recovering high resolution from low resolution. (a) A low-resolution representation learning subnetwork (such as VGGNet [126], ResNet [54]), which is formed by connecting high-to-low convolutions in series. (b) A high-resolution representation recovering subnetwork, which is formed by connecting low-to-high convolutions in series. Representative examples include SegNet [3], DeconvNet [107], U-Net [119] and Hourglass [105], encoder-decoder [112], and SimpleBaseline [152].

(a)는 점진적으로 feature map의 공간적 크기를 줄이고, 고해상도에서 저해상도로 일렬로 연결한다. 그리고 저해상도로 귀결한다.(b)는 

 

High-resolution representations는 위치가 중요한 태스크들에 필요하다.

그래서 이전의 SOTA 모델들은 resolution을 올리기 위해

(b) classification에 의해 나온 low-resolution 결과에 high-resolution recovery process를 거쳤다. 

게다가, 확장된 컨볼루션은 downsample된 layer를 줄이는 데 사용되고

이에 따라 medium-resolution representation을 얻게 된다.

 

우리는 새로운 아키텍처를 제안한다. 이름하여 HRNet High-Resolution Representations.

이는 전체 과정에서 고해상도를 유지할 수 있다.

우리는 고해상도 컨폴루션 stream으로 시작해서, 점진적으로 high-to-low resolution convolution stream을 one by one으로 추가하고, multi-resolution streams을 평행으로 연결한다.

Fig. 2. An example of a high-resolution network. Only the main body is illustrated, and the stem (two stride-2 3 × 3 convolutions) is not included. There are four stages. The 1st stage consists of high-resolution convolutions. The 2nd (3rd, 4th) stage repeats two-resolution (three-resolution, four-resolution) blocks. The detail is given in Section 3

 

HRNet은 semantically 강한 것 뿐만 아니라, 공간적으로도 정밀하다.

1) 우리의 모델 개념은  high-to-low resolution convolution stream을 직선이 아닌, 평행으로 연결하기 때문이다.

따라서, 고해상도를 유지할 수 있다. 저해상도에서 고해상도로 회복시킨 것이 아니기 때문에 공간적으로도 정밀할 수 있다.

2) multi-resolution fusion을 반복함으로써 고해상도 representation을 상승시켰다.

반대로, 다른 fusion scheme들은 대부분 low-level high-resolution과 high-level이지만, low-resolution에서 upsampling한 것을 합치는 방식이다.

따라서, 모든 high-to-low resolution representations은 시맨틱하게 강하다.

 

 

우리는 두 버전의 HRNet 모델을 출시하였다.

첫번째는,  high-resolution convolution stream으로부터 계산된 high-resolution representation 만을 결과로 내뱉는다. 

-> pose estimation에 적용

두번째는, 모든 high-to-low resolution parallel streams으로부터의 representation을 결합한다.

-> semantic segmentation에 적용

 

우리의 모델은 

detection 성능과 작은 물체를 잡는 데에서 좋은 성능을 보여주었다.

 

 

 

 

 

 

반응형

+ Recent posts