반응형

 

 

논문 링크입니다.

https://arxiv.org/abs/1706.03762

2017년 발행

 

 

0. Title


Attention Is All You Need

-> Attention이 핵심인가 봅니다..

 

 

1. Abstract


이전에 지배적인 sequence 모델은 복잡한 인코더와 디코더를 포함한 recurrent나 CNN 모델을 기반으로 한 것이었다.

가장 좋은 모델은 어텐션 매커니즘을 통해 인코더와 디코더를 연결한 모델이다.

하지만, 우리는 recurrence and convolutions를 아예 생략하고 오직 어텐션 매커니즘에만 기반한 간단한 아키텍쳐인 Transformer를 제안한다.

두 가지 모델을 비교 실험해 봤을 때, 트랜스포머가 더 병행적이고 학습하는데 적게 시간을 걸린다는 점에서 우수하였다.

우리의 모델은 WMT 2014 Englishto-German translation task에서 28.4 BLEU를 달성하였다.

기존의 베스트 결과보다 향상된 결과이다.

 

 

반응형

+ Recent posts