반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/2102.04306

 

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

Medical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become the

arxiv.org

2021년 발행

 

 

 

0. Title


TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

-> 의료 이미지 세그먼테이션할 때 효과적인 모델인가보다.. 트랜스포머 구조를 사용하나 보다.. 

 

 

1. Abstract


Medical image segmentation는 헬스케어 시스템을 개발하는 데 중요한 전제 조건이다. 특히, 질병 진단과 치료를 위해.

다양한 Medical image segmentation에서 U-Net이 스탠다드가 되어왔고, 엄청난 성공을 이루었다.

하지만, 컨볼루션의 본질적인 지역성 때문에 긴 영역의 의존을 모델링할 때 U-Net은 일반적으로 한계가 나타났다.

seq-to-seq 예측을 위해 디자인된 트랜스포머가 타고난 글로벌 셀프 어텐션 매커니즘과 함께 대체안으로 나타났다.

하지만, 불충분한 로우레벨의 디테일 때문에 제한적 지역성 능력으로 이어졌다.

 

이 논문에서 우리는 TransUnet이라는 트랜스포머와 U-Net의 장점을 모두 가져온 모델을 제안한다.

medical image segmentation의 강력한 대체안으로서.

 

한편으로는, 트랜스포머가 CNN피쳐맵에서 토큰화된 이미지 패치를 글로벌 컨텍스트를 추출하는 용도로 인코딩한다.

다른 한편으로는, 디코더가 인코딩된 피쳐를 업샘플하여 더 정확한 지역화를 위해 high-resolution CNN 피쳐맵에 합쳐진다.

 

Fig. 1: Overview of the framework. (a) schematic of the Transformer layer; (b) architecture of the proposed TransUNet.

우리는 트랜스포머가 U-Net과 조합함으로써

지역적인 공간적 정보를 회복시킴으로써 디테일을 살려

medical image segmentation에 강력한 인코더가 될 수 있다고 주장한다.

multi-organ segmentation와 cardiac segmentation를 포함한 다양한 의학 응용에서 우수한 성과를 내었다.

 

 

 

2. Conclusion


트랜스포머는 타고난 스스로 집중하는 매커니즘을 가진 알고리즘이다.

이 논문은 의료 세그먼테이션에 트랜스포머를 적용한 첫번째 연구이다.

TransUNet은 이미지 피쳐들을 순서대로 다룸으로써 강력한 글로벌 컨텍스트를 가질 뿐만 아니라,

로우 레벨 CNN피쳐들을 u모양의 하이브리드 아키텍쳐를 통해 이용하여 트랜스포머의 힘을 강화시켰다.

 

FCN 베이스 모델의 대체안으로서 TransUnet은

CNN 베이스의 셀프 어텐션 모델과 같은 다양한 모델들보다도

우수한 성적을 내었다.

 

 

3. Introduction


CNN-based approaches들은 긴 영역의 관계에서의 한계가 있다. 컨볼루션 연산의 지역성 때문에.

따라서, 이러한 아키텍쳐들은 일반적으로 질감과 모양, 크기에서 큰 변화가 있는 타겟 구조에서는 약한 성능이 나온다.

반면에, 트랜스포머는 어텐션 매커니즘에 따라 컨볼루션 연산을 분배하는 방식으로 등장하였다.

이전의 CNN 베이스 모델과는 다르게 트랜스포머는

글로벌 컨텍스트를 모델링하는데 강력할 뿐만 아니라,

큰 스케일의 사전 학습을 기반으로 다운스트림 태스크에서 우수한 양도성을 보여준다.

 

하지만, 트랜스포머 하나로는 만족스러운 결과가 나오지 않았다. 

왜냐하면 트랜스포머가 인풋을 1D sequences로 다루고 모든 단계에서 오직 글로벌 컨텍스트에만 집중하기 때문이다.

따라서, 저해상도의 피쳐들은 지역적 정보를 갖지 못한다.

이를 해결하기 위해, CNN 아키텍쳐(U-Net)이 낮은 레벨의 시각적 신호를 추출하기 위한 수단을 제공한다.

 

종합하여, 우리는 TransUNet라는 seq-to-seq 예측 관점으로부터 셀프 어텐션 매커니즘을 확립하는 모델을 소개한다.

트랜스포머로부터 기반한 피쳐 레졸루션의 손해를 보상하기 위해

하이브리드 CNN-Transformer 아키텍쳐를 고용하였다.

 

 

 

반응형

+ Recent posts