'Computer Vision Paper Review' 카테고리의 글 목록

보호되어 있는 글입니다.

Scaling up Test time compute 하기 위한 아주 novel한 방법을 제안하는 논문이다. 보통은 Chain of thought을 하면서 모델이 더 많은 토큰을 뱉도록 하는 방식으로 scaling 을 했는데, 이렇게 하면 inference 할때 Sequenth length 가 길어질수록, memory 사용량이 linear 하게 증가하는 문제가 있다. 이 논문에서는 이런 비효율적인 memory 사용량을 recurrent 모델을 통해서 해결을 한다. 단순히 많은 토큰을 내뱉게 해서 test time compute을 scaling up 하는 대신에, recurrent 모델을 쓰는데 어떻게 했는지 하나씩 보자.Model Architecture아이디어만 보자면, 우선 hello 에 대한 late..

미루고 미뤄왔던 Deepseek tech report를 차근차근 읽어봤다. 정말 공부할게 많은 tech report 인것 같다. 크게 봐야할 지점이, attention 안에 있는 KV 캐시를 어떻게 효율적으로 바꿨는지, Feed Forward 부분에서 MOE를 어떻게 사용했는지(parameter를 조금만 쓰고 scaling 해서, 조금의 연산량으로 더 큰 모델을 만들수 있다). 그리고 Multi Token Prediction 이 세가지를 위주로 보면 될것 같다. 1) Multi Head Latent Attention여기서는 Q,K,V projection을 변형해서, KV cache를 잘 compress 시킨다.보통, token에서 q, k, v가 나오면 이걸로 attention을 하는데, (q,k,v..

이전에 읽었던 Visual-RFT: Visual Reinforcement Fine-Tuning랑 비슷한 논문인거같다. 여기서도 object detection 을 명확한 reward function으로 정의하는걸로 강화학습을 했는데, 전체적인 방향은 비슷한거 같다. object detection은 사실 명확한 답이 있는 task라서 이런 방식이 잘 통하는거 같은데, 다른 task들, qa task 등은 어떻게 reward function을 잘 설계할 수 있을지 고민해봐야할거 같다. 사실 reward function 자체가 한계점인거 같기도.. 배경LVLM 은 이미지나 영상을 텍스트와 함께 이해시키기 위해 pretraining fine tunign 이런것들이 사용이 되는데최근에는 Preference Dat..

IntroVisual-RFT: Visual Reinforcement Fine-Tuning 논문에서는 Large Vision-Language Models를 강화학습 기반으로 파인튜닝하는 Visual Reinforcement Fine-Tuning을 제안한다. 기존 많이 사용되던 RLHF와는 달리 Verifiable Reward를 사용하는 GRPO를 활용한다즉, “Visual-RFT”는 기존 SFT방식이 아닌 reward function을 explicit 하게 정의하여 모델이 이미지 입력에 대한 다양한 response 를 만들고, 그 reward 정보를 통해 모델이 스스로 학습하도록 한 점이 핵심이다.LVLMs, GPT-4나 Qwen2-VL 같은 모델들은 크게 pretraining, postraining ..

이 논문은 Google에서 트랜스포머 다음 세대로 제시한 Titans 이라는 논문이다. 모델 구조Titans 아키텍처: 핵심 구성요소와 설계Titans는 (1) Core Module(Short-Term Memory), (2) Long-Term Memory Module, (3) Persistent Memory의 세 가지 메모리 체계를 분리하여 운영하는 “hyper-heads” 아이디어를 제시한다. 구체적으로:Core Module (Short-Term Memory)사실상 Transformer 유사 구조의 어텐션 모듈로서, 제한된 길이(슬라이딩 윈도우 등)의 최근 토큰들에 대해 self-attention을 수행한다.일반적인 Transformer와 동일하게 쿼리-키-밸류 (query-key-value) 어텐션..

보호되어 있는 글입니다.

T2I 디퓨전 모델은 사용자 텍스트 입력에 따라 고품질 이미지를 생성 가능하며, 최근 몇년간 엄청난 발전을 이뤘다. 하지만 현재의 T2I 모델은 생성된 이미지에서 카메라 시점을 이동시키는 유연성이 부족하다. 사용자가 생성된 이미지에서 카메라를 가까이 이동하거나 멀리 두고 싶어도, T2I 모델은 3D 공간에서 적절한 시점 전환을 구현하지 못한다. 이를 해결하기 위한 기존 접근법과 한계1. 3D 데이터셋 기반 모델대규모 3D 데이터셋을 활용하여 단일 이미지에서 새로운 시점을 생성하는 모델을 학습한다. 그치만 object centric하기에, 복잡한 reconstruction을 잘 못한다는 한계가 있음.2. Warping-and-Inpainting 방법T2I 모델과 MDE를 결합한 "warping and in..

보호되어 있는 글입니다.

티스토리툴바