Log-Linear Attention 빠른 트랜스포머!?
·
Computer Vision Paper Review
long context를 어떻게 처리할지, AI에서는 굉장히 중요한 문제이다. Transformer,, 굉장하지만 단점이 너무나도 명확하다. 바로 quadratic-compute 이다. 어디서 bottleneck이 발생하냐면, transformer의 selfattention 그림인데, attention matrix부분을 보자. attention matrix이 n^2 이 되는데, 그럼 number of token이 많아지면 n^2배만큼 quudratic하게 늘어나게 될것이다.