반응형

 

 

논문 링크입니다.

https://paperswithcode.com/paper/object-contextual-representations-for

 

Papers with Code - Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation

#2 best model for Semantic Segmentation on Cityscapes test (Mean IoU (class) metric)

paperswithcode.com

 

 

0. Title


Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation

-> Semantic Segmentation에서 사용하는 Object-Contextual Representations 모델인가 봅니다.

Transformer 개념이 들어가는 것 같기도 하구요. 

Object-Contextual Representation 이 핵심인 듯 한데, 객체-문맥 표현? 어떤거지?

 

 

1. Abstract


이 논문에서는 semantic segmentation에서 문맥 병합 문제를 다룰 것이다.

픽셀의 레이블이 픽셀이 속하는 물체의 카테고리라는 것에 착안하여, 

우리는 간단하지만 효과적인 object-contextual representations라는 개념을 개발하였다.

이는, 해당 객체 클래스의 표현을 활용하여 픽셀을 characterizing 하는 것이다.

 

첫째로, 우리는 ground-truth segmentation을 바탕으로, 객체의 영역을 학습한다.

둘째로, 객체의 영역에 있는 픽셀들의 표현을 합침으로써 object region representation을 계산하였다.

마지막으로, 각각의 픽셀과 각각의 객체 영역 사이의 관계를 계산하고, 

각각의 픽셀값을 모든 object-contextual representation을 가중치합한 object-contextual representation와 함께 증강시킨다.

우리는 경험적으로 Cityscapes, ADE20K, LIP, PASCAL-Context and COCO-Stuf에서 좋은 성능을 낸 것을 알 수 있었다.

 

우리는 Transformer의 encoder-decoder 프레임워크를 사용하였다.

첫번째 두개의 과정인 object region learning과 object region representation computation

decoder의 cross-attention 모듈로서 통합되었다.

마지막 과정은 encoder에 넣는 cross-attention module이다. 키와 value가 decoder의 output이고,

쿼리들은 각각의 위치에서의 표현이다.

 

 

 

1. Conclusions


우리는 semantic segmentation에서의 object-contextual representation approach를 제안한다.

성공의 가장 큰 이유는 픽셀의 레이블이 해당 픽셀이 속한 객체의 레이블이기 때문이다.

그리고 각각의 픽셀을 객체 영역 표현과 함께 characterizing함으로써  픽셀 표현이 강화되었기 때문이다.

즉, 픽셀을 그 픽셀이 포함된 객체 정보와 연결시킴으로써 예측 정확도가 높아졌다는 것이다.

우리는 경험적으로 Cityscapes, ADE20K, LIP, PASCAL-Context and COCO-Stuf에서 좋은 성능을 낸 것을 알 수 있었다.

 

 

 

2. Introduction


Semantic segmentation은 이미지에서 각각의 픽셀에 클래스 레이블을 할당하는 문제이다.

이것은 computer vision에서 근본적인 문제이며 자율주행과 같은 다양한 실용적인 태스크에 핵심적이다.

DCNN은 FCN부터 시작해서 지배적인 해결방법이었다.

HRNet, contextual aggregation을 포함하여 다양한 연구가 수행되어왔고 이것이 곧 이 논문의 관심 주제이다.

 

한 위치의 문맥은 일반적으로 주위의 픽셀들을 포함한 여러 세트의 위치를 나타낸다.

이전의 연구들은 주로 문맥의 공간적 스케일에 관하여 수행되었다.(spatial scope과 같은)

ASPP와 PPM과 같은 representation work는 multi-scale 문맥을 활용하였다.

DANet, CFNet, OCNet과 같은 최근의 연구는

위치와 그 위치의 문맥적 위치의 관계를 고려하고, 동일한 표현의 상위 weight와 문맥적 위치의 표현을 통합하였다.

 

Fig 1. Illustrating the effectiveness of our OCR scheme.

GT-OCR은 ground-truth를 이용함으로써 이상적인 OCR을 예측하였다.

 

우리는 position과 그것의 context 사이의 관계를 탐색하는 라인을 따라서 

contextual representation을 조사하기로 하였다.

픽셀에 할당된 클래스 레이블은 해당 픽셀이 포함된 객체의 카테고리라는 것이 핵심 아이디어였다.

대응되는 클래스의 객체 영역의 표현을 이용함으로써 한 픽셀의 표현을 증강시키는 것을 목표로 한다.

Fig 1.을 통해 알 수 있듯, ground-truth object region이 주어질 때,

그러한 representation augmentation scheme이 segmentation quality를 높여준다.

 

 

우리의 접근법은 세 가지 단계로 이루어져 있다.

첫째, 우리는 contextual pixel 을 soft object region으로 분할할 수 있다. (ResNet, HRNet과 같은 딥 네트워크로부터 계산된 거칠고 소프트한 세그먼테이션)

- 이러한 분할은 GT segmenation의 감독 아래 학습된다. (즉, GT를 이용한다.)

둘째, 대응되는 object region에서 픽셀의 표현을 병합함으로써 각각의 object region의 표현을 추정한다.

Illustrating the pipeline of OCR.

셋째, 각각의 픽셀 표현을 OCR과 함께 증강시킨다.

- OCR은 모든 object region representation의 가중치 합이다.

- weight는 픽셀과 object region 사이의 관계를 따라 계산된다.

 

 

OCR은 기존의 multi-scale context scheme과는 차이가 있다.

우리의 OCR은 다른 객체 클래스의 contextual pixel과 동일 객체 클래스의 contextual pixel을 구별합니다.

반면, ASPP나 PPM과 같은 multi-scale context scheme에서는 공간적  위치의 차이만 구별한다.

Fig. 2: Illustrating the multi-scale context with the ASPP as an example and the OCR context for the pixel marked with ■

 

게다가, 우리는 contextual 픽셀을 object region으로 구조화하고, 픽셀과 object 사이의 관계를 이용한다.

반면, 이전의 relational context schemes들은 contextual 픽셀을 분리하여 고려하였고,

픽셀과 contextual 픽셀 간의 관계만을 이용하거나 region에 대한 고려 없이 픽셀로부터의 관계를 예측하였다.

 

우리의 모델은 다양한 semantic segmentation 챌린지에서

multi-scale context schemes(PSPNet, DeepLabv3)와 relational context schemes(DANet)의 성능을 능가하였고

메모리 상에서도 더 효율적이었다.

또한, 우리의 접근법을 Panoptic-FPN으로 확장시켰고 COCO panoptic segmentation task에서 그 성능을 입증하였다.

 

 

 

3. Approach


1) Background

 

 

 

더 알아볼 것


- ASPP

- Transformer

- representation의 뜻?

 

 

 

 

반응형
반응형

 

이전 복습


 

 

 

오늘 배울 것


1) 셋업

: activation functions, preprocessing, weight initialization, regularization, gradient checking

2) training dynamics

: baby sitting learning process, parameter updates, hyperparameter optimization

3) evaluation

: model ensembles

 

 

Activation Functions


 

 

* sigmoid

- output을 [0. 1] 내로 귀결시킨다.

[ 문제점 ]

- x가 너무 작거나 너무 크면(saturated) gradient 사라지는 문제발생

- sigmoid output이 zero-centered가 아니다.

- exp() 계산 시간이 소요된다.

 

* tanh(x)

[ 해결된 것 ]

- zero-centered임 

[ 문제점 ]

- x가 너무 작거나 너무 크면(saturated) gradient 사라지는 문제발생

 

* ReLU

[ 해결된 것 ]

- does not saturate

- 계산 효율적

- converge 하기에 더 빠름

- 생물학적으로 더 그럴듯하다.

- > AlexNet에서 사용

 

[ 문제점 ]

- not zero-centered

- 음수에서는 zero-gradient

 

 

dead-ReLU :

because of bad initialization, too high learning rate, 

 

* Leaky ReLU

[ 해결된 것 ]

- does not saturate

- 계산 효율적

- converge 하기에 더 빠름

- 생물학적으로 더 그럴듯하다.

- 음수에서도 gradient가 죽지 않는다.

 

* ELU

- 모든 ReLU의 장점

- exp() 계산 시간이 소요된다.

 

* tip

 

 

Data preprocessing


1) preprocess the data

normalize -> zero-centering, PCA, whitening

 

In practice) subtract the mean image

 

 

 

Weight Initialization


모든뉴런에서 동일한 gradient 가짐

1) small random numbers

-> small network에서는 괜찮지만, deep network에서는 not work well

all activations become zero!

 

 

 

Batch Normalization


input의 각각의 dimension을 가우시안 분포로 만드는 작업

fully-connected layer나 convolution layer 뒤에 붙인다.

nonlinearity 앞에 붙인다.

 

 

 

Babysitting the Learning Processing


1) data preprocessing

2) choose the architecture

tuning learning rate

cross-validation strategy

lr 너무 커서, reg 많이 안들어가서?

 

hyperparameter 조정 : 네트워크, Learning rate, ..

loss curve 보기

 

weight가 너무 큰지 확인

 

 

 

반응형
반응형

 

bit of history


 

 

Hierarchical orgnization

Simple Cells, Complex Cells, Hyper Complex Cells

 

Neorecognition[1980]

sandwich algorithm

 

 

 

 

 

 

Fully Connected Layer


 

 

 

Convolution layer


key : conserve spatial structure

* activation map의 개수 = filter 개수

 

 

ConvNet : sequence of Convolution layer


 

 

 

filter 과정


stride 1
stride 2

if stride 3? doesn't fit! we don't do convolution

output size formula?

ex) (7-3) / 1 + 1 = 5

(7-3)/2 + 1 = 3

 

 

Q. 가장자리가 적게 반영되는 문제는 어떻게 해결? + input size 유지 효과

zero pad를 Border에 넣기 !

N = 9, F = 3, output size = (9-3)/1 + 1 = 7

+ 제로 패딩 안넣으면 깊은 모델일수록 이미지 사이즈가 줄어든다.

+ 제로 패딩 개수 = (F-1)/2 

F는 filter size

 

 

Example Time

(32 + 2*2 - 5) / 1 + 1 = 32

-> 32 * 32 * 10

 

5 * 5 * 3 + 1 = 76 (+1 for bias)

-> 76 * 10 = 760

 

 

filter 수만큼 h 결정

 

 

Pooling Layer


representations를 더 작게 만들어서 관리하기 쉽게 하기 위함

activation map과 별개로 진행

 

 

1) MAX pooling

여기에도 필터존재

풀링 레이어에서는 제로 패딩 잘 쓰지 않음

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1908.07919

 

Deep High-Resolution Representation Learning for Visual Recognition

High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution represen

arxiv.org

 

2020년 발행

 

 

0. Title


Deep High-Resolution Representation Learning for Visual Recognition

-> 고해상도의 표현을 학습하는 모델인가보다..

 

1. Abstract


위치가 중요한 휴먼 pose estimation이나 semantic segmentation, object detection과 같은 시각적 문제에는 고해상도 표현이 필수적이다. 

현존하는 sota 구조들은 인풋 이미지를 저해상도로 인코딩하고, 다시 고해상도로 회복시킨다.

우리의 모델(HRNet)은 모든 과정에서 고해상도를 유지한다. 여기에는 두가지 특징이 있다.

1) high-to-low resolution convolution이 평행으로 연결된다는 것이다.

2) 반복적으로 정보를 교환한다.

 

이로 인한 장점은, 결과적인 표현이 시맨틱하게 더 풍부하고 정확하다는 것이다. 

우리의 모델은 human pose estimation, semantic segmentation, and object detection과 같은 다양한 application에서 

우월성을 보여주었다.

 

 

2. Conclusion


이 논문을 통해, 우리는 시각 인식 문제를 위한 고해상도 네트워크를 발표하였다.

여기에는 기존 모델들과 다른 세 가지 근본적인 차이가 있다.

1) 고해상도와 저해상도의 컨볼루션을 평행하게 연결하였다는 것. (일렬로가 아니라)

2) 전체과정에서 고해상도를 유지하였다는 것

3) position sensitivity를 가지고 multi-resolution representation을 반복적으로 녹였다는 것

 

가장 우수한 결과는 HRNet이 컴퓨터 비전 문제의 백본으로서 강력하다는 것이다.

우리의 연구는 특정 비전 문제에 대한 네트워크 아키텍처를 구축하기 위한 연구도 장려하였다.

 

Discussion

여기에는 잘못된 이해가 있다: 해상도가 높을수록 HRNet의 메모리 비용이 많이 들 것이다. 라는

사실, HRNet을 세가지 application(pose estim, object detect, semantic seg)에 적용한 메모리 비용은 이전 SOTA와 유사하다.

게다가, 우리는  파이토치 1.0에서 runtime cost 비교를 요약했다

1) segmentation HRNet에서의 inference time은 훨씬 적다.

2) pose estimation HRNet에서의 training time은 조금 많이 든다.

우리는 semantic segmentation the inference cost 가 PSPNet and DeepLabv3 보다 상당히 적다는 것이다. 

 

 

Future and Followup works

semantic segmentation and instance segmentation를 위한 HRNet의 combination을 연구할 것이다.

현재로써는, mIOU의 결과가 있지만, OCR과 결합함으로써 더 해상도를 증가시켜볼 것이다.

 

 

 

Introduction


DCNN(Deep Convolution Neural Network)은 많은 컴퓨터비전 태스크에서 state-of-the-art한 결과를 내었다.

DCNN의 강점은 더 풍부한 표현을 할 수 있다는 것이다. (더 고해상도)

가장 최근에 개발된 classification network(AlexNet, VGGNet, etc)은 LeNet-5의 디자인 규칙을 따른다.

Fig. 1. The structure of recovering high resolution from low resolution. (a) A low-resolution representation learning subnetwork (such as VGGNet [126], ResNet [54]), which is formed by connecting high-to-low convolutions in series. (b) A high-resolution representation recovering subnetwork, which is formed by connecting low-to-high convolutions in series. Representative examples include SegNet [3], DeconvNet [107], U-Net [119] and Hourglass [105], encoder-decoder [112], and SimpleBaseline [152].

(a)는 점진적으로 feature map의 공간적 크기를 줄이고, 고해상도에서 저해상도로 일렬로 연결한다. 그리고 저해상도로 귀결한다.(b)는 

 

High-resolution representations는 위치가 중요한 태스크들에 필요하다.

그래서 이전의 SOTA 모델들은 resolution을 올리기 위해

(b) classification에 의해 나온 low-resolution 결과에 high-resolution recovery process를 거쳤다. 

게다가, 확장된 컨볼루션은 downsample된 layer를 줄이는 데 사용되고

이에 따라 medium-resolution representation을 얻게 된다.

 

우리는 새로운 아키텍처를 제안한다. 이름하여 HRNet High-Resolution Representations.

이는 전체 과정에서 고해상도를 유지할 수 있다.

우리는 고해상도 컨폴루션 stream으로 시작해서, 점진적으로 high-to-low resolution convolution stream을 one by one으로 추가하고, multi-resolution streams을 평행으로 연결한다.

Fig. 2. An example of a high-resolution network. Only the main body is illustrated, and the stem (two stride-2 3 × 3 convolutions) is not included. There are four stages. The 1st stage consists of high-resolution convolutions. The 2nd (3rd, 4th) stage repeats two-resolution (three-resolution, four-resolution) blocks. The detail is given in Section 3

 

HRNet은 semantically 강한 것 뿐만 아니라, 공간적으로도 정밀하다.

1) 우리의 모델 개념은  high-to-low resolution convolution stream을 직선이 아닌, 평행으로 연결하기 때문이다.

따라서, 고해상도를 유지할 수 있다. 저해상도에서 고해상도로 회복시킨 것이 아니기 때문에 공간적으로도 정밀할 수 있다.

2) multi-resolution fusion을 반복함으로써 고해상도 representation을 상승시켰다.

반대로, 다른 fusion scheme들은 대부분 low-level high-resolution과 high-level이지만, low-resolution에서 upsampling한 것을 합치는 방식이다.

따라서, 모든 high-to-low resolution representations은 시맨틱하게 강하다.

 

 

우리는 두 버전의 HRNet 모델을 출시하였다.

첫번째는,  high-resolution convolution stream으로부터 계산된 high-resolution representation 만을 결과로 내뱉는다. 

-> pose estimation에 적용

두번째는, 모든 high-to-low resolution parallel streams으로부터의 representation을 결합한다.

-> semantic segmentation에 적용

 

우리의 모델은 

detection 성능과 작은 물체를 잡는 데에서 좋은 성능을 보여주었다.

 

 

 

 

 

 

반응형
반응형

 

복습


 

 

 

Gradient Descent


 

 

Computational Graphs


 

backpropagation


거꾸로 미분하면서 간다

computational graph를 따라서 gradients를 계산하면서 chain rule을 적용하는 반복적인 과정(input,parameters,intermediates)

 

 

local gradient를 사용하여 계산 진행 

 

 

Another example of backprop


1) df/d(variable) 를 구함 -> f 어떤거?

2) local gradient와 upstream gradient를 사용하여 계산

 

 

 

sigmoid function


grouping nodes -> activation

 

 

patterns in backward flow


??

 

 

Vectorized operations


 

-> 너무 크니까 mini-batch로 뽑아서 할것임

-> 어떤 input이 어떤 output에 영향을 주는지? diagonal matrix(대각행렬), element-wise

gradient값은 output에 얼마나 영향을 주는지를 나타냄

 

 

 

 

 

 

 

 

 

Neural Network


h 는 함수와 같은 것

 

 

 

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1511.03339

 

Attention to Scale: Scale-aware Semantic Image Segmentation

Incorporating multi-scale features in fully convolutional neural networks (FCNs) has been a key element to achieving state-of-the-art performance on semantic image segmentation. One common way to extract multi-scale features is to feed multiple resized inp

arxiv.org

 

 

 

0. Title


Attention to Scale: Scale-aware Semantic Image Segmentation

-> 어텐션에서 스케일로.. 스케일을 아는 시맨틱 이미지 세그먼테이션

이 논문의 핵심은 어텐션 매커니즘과 스케일로 예측된다.

 

 

1. Abstract


FCN(Fully Convolutional Network)에 multi-scale feature을 적용한 것은 

시맨틱 세그먼테이션에서 SOTA 성능을 달성하는데 핵심이 되었다.

 

multi-scale feature를 뽑는 데 일반적으로 사용되는 방법은

공유되는 deep network에 다수의 resize된 이미지를 먹이는 것이다.

그리고 나온 결과를 픽셀 단위로 합치는 것이다.

 

우리는 어텐션 매커니즘을 제안한다.

이는 각 픽셀 위치에서 다중 스케일 기능에 부드럽게 가중치를 부여하는 방법을 학습하는 메커니즘이다.

우리는 state-of-the-art segmentation model을 채택하였고, 여기에 우리의 어텐션 모델과 multi-scale input image를 학습하였다.

 

어텐션 모델은 average pooling 과 max pooling 의 성능을 능가할 뿐만 아니라,

다양한 위치와 스케일에서의 feature의 중요성을 진단적으로 시각화할 수 있게 하였다.

 

게다가, multi-scale features를 병합할 때 좋은 성과를 내려면

각 스케일의 output에 대한 추가적인 감독이 필요함을 보여준다.

 

우리의 모델의 효과성을 PASCAL-Person-Part, PASCAL VOC 2012 and a subset of MS-COCO 2014에서

입증하였다.

 

 

2. Conclusion


이 논문에서는 multi-scale input을 활용하기 위해 DeepLab-LargeFOV 모델을 사용하였다. 

세가지 데이터셋에 실험해봄으로써 우리가 알아낸 것이다.

1) multi-scale inputs가 single-scale inputs 보다 더 좋은 성능을 냄

2) 어텐션 모델에 multi-scale features를 적용한 것은 average pooling과 max pooling보다 뛰어날 뿐만 아니라,

다른 위치와 스케일에 따른 features의 중요성을 진단적으로 시각화할 수 있다.

3) 각각의 스케일에 마지막 결과에 추가적인 감독이 있다면 훌륭한 결과가 있을 것이다.

 

 

Figure 8. Qualitative segmentation results on PASCAL-Person-Part validation set.

 

 

3. Introduction


Semantic image segmentation는 각각의 모든 픽셀에 semantic label을 할당하는 태스크이다.

최근에는 FCN 을 기반으로 한 다양한 방식들이  놀라운 성과를 내었다.

성공적인 Semantic image segmentation의 요소 중 한가지는 "multi-scale features"의 사용이다.

 

FCN에는 multi-scale features를 활용하는 두 가지 타입의 네트워크 구조가 있다.

. Different network structures for extracting multi-scale features:

첫 번째는 skip-net이다.

아주 큰 receptive field sizes 때문에 skip-net의 feature는 본질적으로 multi-scale이다.

학습 시간동안 skip-net은 두 가지 프로세스를 거치는데,

딥러닝 백본을 학습하고,  multi-scale feature extraction 과정에서 fine tuning하는 것이다.

이 전략의 문제점은 학습과 feature extraction 과정이 분리되어 있기 때문에 학습 과정이 이상적이지 못 하다는 것이다.

 

두 번째는 share-net이다.

인풋 이미지를 여러 사이즈로 리사이즈하고, 공유된 딥 뉴럴 네트워크로 통과하는 것이다.

그런 다음 다중 스케일 피쳐들을 기반으로 최종 예측값을 계산한다.

 

 

최근, attention model은 컴퓨터 비전과 자연어 처리에서 엄청난 성공을 하였다.

전체 이미지와 시퀀스들을  압축하는 것이 아니라, 어텐션은 가장 유용하고 관련있는 피쳐에 집중한다.

이전의 2D 대상으로한 어텐션 모델들과 다르게, 우리는 scale dimension에서의 효과를 입증해보고자 한다.

 

우리는 sota 모델에 share-net를 적용하였고,

average pooling과 max pooling을 generalize하기 위해 soft attention model을 적용하였다.

attention model illustration

어텐션 모델은 이미지에 나타나 있는 물체의 크기에 따라 

multi-scale feature들에 가중치를 부여하는 방법을 학습힌다.

(예를 들어, 모델은 거칠고 큰 물체에는 큰 가중치를 부여한다.)

각각의 스케일에서, 어텐션 모델은 weight map을 뱉어내는데, 이것은 픽셀 바이 픽셀로 가중치를 구한 것이다.

그리고 FCN에서 생성한 score map의 가중치 합을 뱉어낸다.

 

각각의 스케일마다 추가적인 감독을 소개한다. 성능 개선에 필수적인

우리는 어텐션 모델과 멀티스케일 네트워크를 공동으로 학습시킨다.

 

어텐션 컴포넌트는 average pooling과 max pooling에 비해 상당한 개선을 제공한다.

게다가 diagnostic visualization이 가능하다. 모든 이미지 포지션에서 각각의 스케일의 각각의 피쳐들의 중요성을 시각화함으로써 블랙박스를 벗겨내었다. 

 

 

 

4. Model


1) Review of DeepLab

FCN이 semantic segmentation에서 성공적인 효과를 거두었으므로

FCN의 변형인 DeepLab 모델을 리뷰해보고자 한다.

 

DeepLab은 VGG를 참고하여 16개의 레이어 구조를 채택하였다.

해당 네트워크에 dense feature map을 가져다주는 fully convolution으로 주입하였다.

자세하게는, 마지막 VGG의 fully connected layer가 fully convolutional layer로 변경되었다. (마지막 레이어는 커널 사이즈 1x1)

원래의 VGG-16의 spatial decimation은 32이다. 5개의 stride 2를 가진 max pooling을 사용하였기 때문이다.

 

DeepLab은 atrous 알고리즘을 사용하여 이를 8로 줄였다.

또한 linear interpolation을 사용하여 최종 레이어의 스코어 맵을 원본 이미지 해상도에 매핑한다.

우리는 DeepLab의 여러가지 변형 중, DeepLab-LargeFOV에 초점을 맞춘다.

 

 

2) Attention model for scales

(a) Merging score maps (i.e., last layer output before SoftMax) for two scales. (b) Our proposed attention model makes use of features from FCNs and produces weight maps, reflecting how to do a weighted merge of the FCN-produced score maps at different scales and at different positions.

 

어텐션 모델은 각각의 다른 스케일과 position으로 부터 FCN이 생성한 스코어맵의

가중 합을 어떻게 할지를 반영하는 weight map을 만든다.

즉, multi-scale features를 가중치를 어떻게 할지 학습한다.

 

share-net을 기반으로, 인풋 이미지는 여러 스케일로 리사이즈 된다.

각각의 스케일은 DeepLab을 통과하며 score map을 만든다. (fully convolutional layer)

score map은 bilinear interpolation을 통해 동일한 해상도를 갖도록 리사이즈된다.

 

f : score map

w : importance of feature at position i and scale s

g : weighted sum of score map

 

w를 시각화하면 스케일별로 어텐션을 시각화할 수 있다.

 

 

 

5. Result


Table 1. Results on PASCAL-Person-Part validation set. E-Supv: extra supervision
Table 2. Per-part results on PASCAL-Person-Part validation set with our attention model.

 

Table 3. Results on PASCAL VOC 2012 validation set, pretrained with ImageNet. E-Supv: extra supervision
Table 4. Labeling IOU on the PASCAL VOC 2012 test set.

 

Table 5. Results on PASCAL VOC 2012 validation set, pretrained with MS-COCO. E-Supv: extra supervision.

반응형

+ Recent posts