반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1910.12037

 

Region Mutual Information Loss for Semantic Segmentation

Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores

arxiv.org

2019년 발행

 

 

0. Title


Region Mutual Information Loss for Semantic Segmentation

-> Semantic Segmentation에서 사용하는 loss function인가보다..

영역끼리 상호작용하는 정보를 사용하나?

 

 

1. Abstract


Semantic segmentation은 컴퓨터 비전에서 근본적인 문제이다.

대부분의 Semantic segmentation 모델은 최적화 기준으로 픽셀단위의 loss를 사용한다.

하지만, 픽셀 단위의 loss는 이미지 안에서 픽셀 간의 의존관계를 무시한다.

픽셀들간의 관계를 활용한 여러 가지 방법이 연구되고 있다. (CRF나 pixel affinity based methods)

그러나 이런 방법들은 추가적인 모델 브랜치와 메모리, inference time를 필요로 한다.

 

이 논문에서 우리는 RMI loss를 개발하여 픽셀 간의 의존관계를 더 간단하고 효율적으로 계산하기 위한 방법을 제안한다.

픽셀 단위의 loss와는 다르게, RMI는 하나의 픽셀을 표현할 때 다른 픽셀들도 이 픽셀을 표현하기 위해 사용한다.

그리고 이미지에서 각각의 픽셀을 위해 픽셀 간의 관계 정보를 담은 다차원 포인트를 인코딩한다.

그 이미지는 이 고차원 포인트의 다차원 분포에 캐스팅된다.

 

따라서 예측값과 실제값은 mutual information을 극대화함으로써 고차 일관성을 달성할 수 있다. 

게다가, MI의 실제값이 계산하기 어려움으로, MI의 하한을 계산하고 MI의 실제값을 최대화하기 위해 하한을 최대화한다.

따라서 RMI는 학습 과정에서 적은 추가적인 연산량을 요구한다 그리고 테스트 과정에서 오버헤드가 없다.

경험적 결과는 RMI가 충분하고 일관된 성과를 낼 수 있다는 것을 보여준다.

 

 

2. Methodology


# RMI loss의 기본 아이디어

An image region and its corresponding multi-dimensional point.

이미지 영역과 이와 대응되는 다차원 포인트이다.

이러한 전략을 이용하면 이미지가 다차원 분포에 캐스트될 수 있여 픽셀간의 관계를 인코딩할 수 있다.

 

이렇게 예측값과 실제값의 두가지 다차원 분포를 가진 후에,

우리의 목표는 그 둘 간의 공통점을 최대화하는 것이다.

-> MI의 Lower-bound를 최대화함으로써 달성

 

# mutual information(MI)의 Lower-bound로 구함

계산의 효율을 위해 MI의 Lower-bound를 이용한다.

 

# mutual information I(Y ; P) 구하는 방법

 

 

 

# 더 알아볼 것


- Cross-Entropy Loss

- Focal Loss

- Ohem Cross Entropy

 

 

반응형
반응형
반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1706.03762

2017년 발행

 

 

0. Title


Attention Is All You Need

-> Attention이 핵심인가 봅니다..

 

 

1. Abstract


이전에 지배적인 sequence 모델은 복잡한 인코더와 디코더를 포함한 recurrent나 CNN 모델을 기반으로 한 것이었다.

가장 좋은 모델은 어텐션 매커니즘을 통해 인코더와 디코더를 연결한 모델이다.

하지만, 우리는 recurrence and convolutions를 아예 생략하고 오직 어텐션 매커니즘에만 기반한 간단한 아키텍쳐인 Transformer를 제안한다.

두 가지 모델을 비교 실험해 봤을 때, 트랜스포머가 더 병행적이고 학습하는데 적게 시간을 걸린다는 점에서 우수하였다.

우리의 모델은 WMT 2014 Englishto-German translation task에서 28.4 BLEU를 달성하였다.

기존의 베스트 결과보다 향상된 결과이다.

 

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1505.04597

 

U-Net: Convolutional Networks for Biomedical Image Segmentation

There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated

arxiv.org

 

 

0. Title


U-Net: Convolutional Networks for Biomedical Image Segmentation

-> Biomedical Image Segmentation를 위한 컨볼루션 네트워크

 

 

1. Abstract


이 논문은 annotated 학습 샘플 데이터의 효율성을 높여주기 위하여 

데이터 증강의 강력한 이용에 의지한 네트워크와 학습 전략을 소개한다.

 

이 아키텍쳐는 컨텍스트를 추출하기 위하여 수축하는 경로와 

지역화를 위한 대칭되는 확장 경로로 이루어져 있다.

 

 

 

 

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/2102.04306

 

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

Medical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become the

arxiv.org

2021년 발행

 

 

 

0. Title


TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

-> 의료 이미지 세그먼테이션할 때 효과적인 모델인가보다.. 트랜스포머 구조를 사용하나 보다.. 

 

 

1. Abstract


Medical image segmentation는 헬스케어 시스템을 개발하는 데 중요한 전제 조건이다. 특히, 질병 진단과 치료를 위해.

다양한 Medical image segmentation에서 U-Net이 스탠다드가 되어왔고, 엄청난 성공을 이루었다.

하지만, 컨볼루션의 본질적인 지역성 때문에 긴 영역의 의존을 모델링할 때 U-Net은 일반적으로 한계가 나타났다.

seq-to-seq 예측을 위해 디자인된 트랜스포머가 타고난 글로벌 셀프 어텐션 매커니즘과 함께 대체안으로 나타났다.

하지만, 불충분한 로우레벨의 디테일 때문에 제한적 지역성 능력으로 이어졌다.

 

이 논문에서 우리는 TransUnet이라는 트랜스포머와 U-Net의 장점을 모두 가져온 모델을 제안한다.

medical image segmentation의 강력한 대체안으로서.

 

한편으로는, 트랜스포머가 CNN피쳐맵에서 토큰화된 이미지 패치를 글로벌 컨텍스트를 추출하는 용도로 인코딩한다.

다른 한편으로는, 디코더가 인코딩된 피쳐를 업샘플하여 더 정확한 지역화를 위해 high-resolution CNN 피쳐맵에 합쳐진다.

 

Fig. 1: Overview of the framework. (a) schematic of the Transformer layer; (b) architecture of the proposed TransUNet.

우리는 트랜스포머가 U-Net과 조합함으로써

지역적인 공간적 정보를 회복시킴으로써 디테일을 살려

medical image segmentation에 강력한 인코더가 될 수 있다고 주장한다.

multi-organ segmentation와 cardiac segmentation를 포함한 다양한 의학 응용에서 우수한 성과를 내었다.

 

 

 

2. Conclusion


트랜스포머는 타고난 스스로 집중하는 매커니즘을 가진 알고리즘이다.

이 논문은 의료 세그먼테이션에 트랜스포머를 적용한 첫번째 연구이다.

TransUNet은 이미지 피쳐들을 순서대로 다룸으로써 강력한 글로벌 컨텍스트를 가질 뿐만 아니라,

로우 레벨 CNN피쳐들을 u모양의 하이브리드 아키텍쳐를 통해 이용하여 트랜스포머의 힘을 강화시켰다.

 

FCN 베이스 모델의 대체안으로서 TransUnet은

CNN 베이스의 셀프 어텐션 모델과 같은 다양한 모델들보다도

우수한 성적을 내었다.

 

 

3. Introduction


CNN-based approaches들은 긴 영역의 관계에서의 한계가 있다. 컨볼루션 연산의 지역성 때문에.

따라서, 이러한 아키텍쳐들은 일반적으로 질감과 모양, 크기에서 큰 변화가 있는 타겟 구조에서는 약한 성능이 나온다.

반면에, 트랜스포머는 어텐션 매커니즘에 따라 컨볼루션 연산을 분배하는 방식으로 등장하였다.

이전의 CNN 베이스 모델과는 다르게 트랜스포머는

글로벌 컨텍스트를 모델링하는데 강력할 뿐만 아니라,

큰 스케일의 사전 학습을 기반으로 다운스트림 태스크에서 우수한 양도성을 보여준다.

 

하지만, 트랜스포머 하나로는 만족스러운 결과가 나오지 않았다. 

왜냐하면 트랜스포머가 인풋을 1D sequences로 다루고 모든 단계에서 오직 글로벌 컨텍스트에만 집중하기 때문이다.

따라서, 저해상도의 피쳐들은 지역적 정보를 갖지 못한다.

이를 해결하기 위해, CNN 아키텍쳐(U-Net)이 낮은 레벨의 시각적 신호를 추출하기 위한 수단을 제공한다.

 

종합하여, 우리는 TransUNet라는 seq-to-seq 예측 관점으로부터 셀프 어텐션 매커니즘을 확립하는 모델을 소개한다.

트랜스포머로부터 기반한 피쳐 레졸루션의 손해를 보상하기 위해

하이브리드 CNN-Transformer 아키텍쳐를 고용하였다.

 

 

 

반응형
반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1706.05587

 

Rethinking Atrous Convolution for Semantic Image Segmentation

In this work, we revisit atrous convolution, a powerful tool to explicitly adjust filter's field-of-view as well as control the resolution of feature responses computed by Deep Convolutional Neural Networks, in the application of semantic image segmentatio

arxiv.org

2017년 발행

 

 

0. Title


Rethinking Atrous Convolution for Semantic Image Segmentation

-> Semantic Image Segmentation을 위한 Atrous Convolution을 다시 뭔가 변형해서 적용하였다는 것 같다...

 

 

1. Abstract


이 논문에서 우리는 atrous convolution를 다시 방문하였다. 

1) atrous 컨볼루션터의 field-of-view를 조정하고 DCNN으로부터 계산된 피쳐 응답의 해상도를 조절하는 강력한 도구이다.

다중 스케일에서의 물체 분할 문제를 다루기 위해서 우리는 atrous 컨볼루션을 쇄적으로 혹은 병행하여 모듈에 적용하였다.

나아가, 우리는 이전에 소개된 Atrouse Spatial Pyramid Pooling 모듈을 증강시켜

2) 글로벌 컨텍스트를 주입한 이미지 레벨의 피쳐와 함께 다중 스케일에서 컨볼루션 피쳐들을 시험한다. 이는 성능을 상승시켰다.

DeepLabV3 시스템은 이전 DeepLab version을 DenseCRF없이 상당히 향상시켰고

PASCAL VOC 2012 semantic image segmentation benchmark에서 SOTA를 달성하였다.

 

 

 

2. Conclusion


우리의 “DeepLabv3” 모델은 dense feature map을 추출하고 더 긴 컨텍스트를 포착하기 위해 upsampled filters와 함께 atrous convolution을 적용하였다.

구체적으로, multi-scale information을 주입하기 위해서 우리의 연쇄적인 모듈이 점진적으로 atrous rate를 두배로 늘렸다.

이미지 레벨의 피쳐들과 함께 증강된 atrous spatial pyramid pooling 모듈다중 샘플링 비율과 효과적인 field-of-view에서의 필터와 함께 피쳐를 조사하는 와중에.

우리의 경험적 결과가 이전 DeepLab version보다 상당히 향상되었고 괄목할만한 성적을 내었다.

 

 

3. Introduction


semantic segmentation를 위해서 우리는 DCNN을 적용할 때 두 가지 문제점을 고려한다.

첫째, 연이은 pooling 연산과 컨볼루션 striding으로 인해 줄어든 피쳐 해상도이다. 이는 DCNN이 더욱 더 추상적인 피쳐 representation을 학습하도록 한다.

하지만, 이 지역 이미지 변환에 대한 불변은 디테일한 공간적 정보가 필요한 깊은 예측 과정을 방해한다.

이 문제를 극복하기 위해 semantic segmentation에 효과적인 atrous convolution의 사용을 지지한다.

 

dilated convolution이라고도 알려진 atrous convolution

ImageNet pretrained model을 더 깊은 피쳐맵을 추출하는데 사용한다. 마지막 몇 개의 레이어에서 다운샘플링 연산을 제거하고, 대응되는 필터 커널을 업샘플링함으로써. 이것은 필터 웨이트 사이에 구멍(trous)를 넣는 것과 같다.

Figure 1. Atrous convolution with kernel size 3 × 3 and different rates.

atrous 컨볼루션으로 추가적인 파라미터 없이 피쳐 응답들이 DCNN과 연산되어 해상도를 조절할 수 있다.

 

둘째, 다중 스케일의 물체의 존재로부터 오는 어려움이다. 

몇가지 방법이 제시되었고, 우리는 주로 네개의 카테고리를 고려하였다

Figure 2. Alternative architectures to capture multi-scale context

1) 각각의 스케일의 피쳐를 추출하기 위해 DCNN이 이미지 피라미드에 적용하였다. 다른 스케일의 물체가 다른 피쳐맵에서 두드러지는.

2) 인코더-디코더 구조로, 인코더 파트로부터 다중 스케일 피쳐를 이용하고 / 디코더 파트로부터 공간적 해상도를 회복시킨다.

3) 추가적인 모듈이 오리지널 네트워크의 위에 계단식으로 연결된다. 더 긴 범위의 정보를 포착하기 위해서.

특히, 픽셀 레벨의 유사성을 위해 DenseCFR가 사용되었다.

4) Spatial Pyramid Pooling이 필터나 풀링 연산과 함께 들어오는 피쳐맵을 조사한다. 다수의 비율의, 다수의 효과적인 field-of-view에 -> 따라서 다수의 스케일에서 물체를 잡아낼 수 있다.

 

 

이 논문을 통해 우리는 atrous 컨볼루션을 다시 연구하였고 다중 스케일 컨텍스트를 통합하기 위한 필터의 field of view 크기를 효과적으로 확대할 수 있었다. cascaded modules와 spatial pyramid pooling 두 곳 모두에서.

특히 우리의 모듈은 다양한 비율의 atrous 컨볼루션과 배치 normalization 레이어로 구성되어 있다.

우리는 ASPP(Atrous Spatial Pyramid Pooling)  방법을 이용하여 모듈을 연쇄적으로, 병행하여 실험하였다.

 

 

4. Methods


여기 섹션에서는 dense 피쳐들을 추출하기 위해 어떻게 atrous 컨볼루션이 적용되는지 설명한다.

그리고, atrous 컨볼루션과 함께 제안된 모듈들에 대해 소개할 것이다. (연쇄적으로 평행하여)

 

1) dense 피쳐 추출을 위한 Atrous 컨볼루션

풀 컨볼루션에서 사용된 DCNN은 semantic segmentation에서 높은 성능을 보여주었다.

하지만, 연이은 레이어에 반복된 맥스풀링과 스트라이드의 조합으로 인해

피쳐맵의 공간적 정보들이 상당히 줄어들었다.

 

Deconvolutional layers (or transposed convolution)가 공간적 정보를 회복시키는 데 많이 사용되어 왔지만,

우리는 atrous 컨볼루션을 이용하였다.

2차원 신호에서 각 i의 y가 결과물로서, w가 필터로 사용된다. atrous 컨볼루션은 인풋 피쳐맵인 x에 거쳐 적용된다.

각각의 레이어에서 atrous rate인 r이 다를 수 있다.

Figure 3. Cascaded modules without and with atrous convolution.

 

 

2) Atrous Spatial Pyramid Pooling

네 개의 다른 rate를 가진 parallel atrous convolutions을 피쳐맵의 위에 적용하였다.

ASPP는 다른 스케일을 가진 피쳐와 임의의 스케일의 영역을 분류하는 데 효과적인 spatial pyramid pooling의 성공에 감명을 받았다.

ASPP는 batch normalization을 추가한 것이 차이점이다.

ASPP는 다중 스케일 정보를 포착하는 데 효과적이다. 하지만, 샘플링 비율이 커질수록 유효한 필터 웨이트의 수가 더 줄어든다는 것을 발견하였다.

이 문제를 해결하고 글로벌 컨텍스트를 모델에 통합하기 위해

우리는 이미지 레벨의 피쳐를 채택하였다. 

구체적으로, 모델의 마지막 피쳐맵에 글로벌 average pooling을 적용하였고, 이미지 레벨의 피쳐에 정보를 주입할 수 있었다.

글로벌 애버리지 풀링 -> 256개의 필터로 이루어진 1x1 컨볼루션, 배치 노말-> 바이리니얼 업샘플링

 

마지막에 우리의 향상된 ASPP는

(a) 한개의 1x1 컨볼루션과 세개의 3x3 컨볼루션 (rates=6,12,18)과

(b) 이미지 레벨의 피쳐들 로 구성하였다.

모든 가지로부터 나온 피쳐들이 concat되고, 1x1 convolution을 통과한다.

 

 

# 더 알아볼 것


- DenseCRF

- global average pooling

 

 

반응형

+ Recent posts