Log-Linear Attention 빠른 트랜스포머!?

2025. 6. 27. 21:56·Computer Vision Paper Review

long context를 어떻게 처리할지, AI에서는 굉장히 중요한 문제이다.

 

Transformer,, 굉장하지만 단점이 너무나도 명확하다. 바로 quadratic-compute 이다.

 

어디서 bottleneck이 발생하냐면,  transformer의 selfattention 그림인데, attention matrix부분을 보자. attention matrix이 n^2 이 되는데, 그럼 number of token이 많아지면 n^2배만큼 quudratic하게 늘어나게 될것이다. 

 

'Computer Vision Paper Review' 카테고리의 다른 글
  • Concept-skill Transferability-based Data Selection for Large Vision-Language Models
  • ReVisionLLM: Recursive Vision-Language Model forTemporal Grounding in Hour-Long Videos
  • TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
  • Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
happy88
happy88
  • happy88
    happy8825
    happy88
  • 전체
    오늘
    어제
    • 분류 전체보기 (105)
      • NLP (8)
      • Computer Vision Paper Revie.. (57)
      • 이것저것 (5)
      • About me (3)
      • Linear Algebra (7)
      • 개발 (3)
      • Statistics (12)
      • Flow Matching (7)
      • robot (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    D
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
happy88
Log-Linear Attention 빠른 트랜스포머!?
상단으로

티스토리툴바