반응형
retnet의 장점:
training parallelism, low-cost inference, and good performance.
retnet의 특징:
- attention 매커니즘을 retention 매커니즘으로 대체했다. Retention은 Parallel + Recurrent을 결합한 상태이다.
- retention mechanism(parallel, recurrent, and chunkwise recurrent)
- recurrent representation enables low-cost O(1) inference
Q.
- 수식 전혀 이해 못하고있음
- LM Perplexity?
- throughput?
반응형