'Computer Vision Paper Review' 카테고리의 글 목록

조금 오래된.. 작년 초 논문이긴 하지만, 특정 Task 에서 Sota를 달성하기 위해 어떤 방법을 사용했고, 특히 부족한 데이터셋은 어떻게 해결했는지 궁금해서 읽어봤다. 우선 DeepSeekMath는 수학 벤치마크에서 당시 Sota를 달성했다. 두가지 접근법이 있었는데 아주아주 많은 고품질의 데이터셋을 모은것, 그리고 GRPO 이다. 먼저 아주아주 많은 고품질의 데이터셋은 어떻게 모았을까. 알다시피 데이터셋을 만드는건 돈이 많이 든다. GPT를 태워서 데이터셋을 만들다보면 순식간에 몇백이 나가있을거다.. 여기서 소개한 데이터셋 모으기 파이프라인의 주요 아이디어는, 데이터를 제작하는게 아니고, 이미 있는 데이터셋을 잘 걸러내서 필요한것들을 잘 뽑아내보자 이다. Common Crawl이라는 웹에서 그냥 크..

DeepSeek-R1은, Deepseek V3 pretrained된 base 모델을 reasoning할때 더 잘하게 하기 위해 강화학습을 적용한다. 기존 연구들은 엄청나게 많은 양의 supervised 된 데이터에 의존해서 모델 성능을 높인다. 그치만 DeepSeek R1은 무작정 데이터 양을 늘리는 대신, supervised data없이 reasoning capability를 높이는 방법을 소개한다. 아주아주 바람직한 방향인거 같다.DeepSeek-R1은 먼저 Cold Start SFT로 모델이 초기 추론 구조를 익히도록 도와주고, 그 다음 RL을 통해 추론 과제를 중심으로 성능을 끌어올린다. 이후 대규모 자동 샘플링과 선별 과정을 통해 고품질 데이터를 재구축하고 두 번째 SFT를 수행한다. 마지막으로..

Scaling up Test time compute 하기 위한 아주 novel한 방법을 제안하는 논문이다. 보통은 Chain of thought을 하면서 모델이 더 많은 토큰을 뱉도록 하는 방식으로 scaling 을 했는데, 이렇게 하면 inference 할때 Sequenth length 가 길어질수록, memory 사용량이 linear 하게 증가하는 문제가 있다. 이 논문에서는 이런 비효율적인 memory 사용량을 recurrent 모델을 통해서 해결을 한다. 단순히 많은 토큰을 내뱉게 해서 test time compute을 scaling up 하는 대신에, recurrent 모델을 쓰는데 어떻게 했는지 하나씩 보자.Model Architecture아이디어만 보자면, 우선 hello 에 대한 late..

미루고 미뤄왔던 Deepseek tech report를 차근차근 읽어봤다. 정말 공부할게 많은 tech report 인것 같다. 크게 봐야할 지점이, attention 안에 있는 KV 캐시를 어떻게 효율적으로 바꿨는지, Feed Forward 부분에서 MOE를 어떻게 사용했는지(parameter를 조금만 쓰고 scaling 해서, 조금의 연산량으로 더 큰 모델을 만들수 있다). 그리고 Multi Token Prediction 이 세가지를 위주로 보면 될것 같다. 1) Multi Head Latent Attention여기서는 Q,K,V projection을 변형해서, KV cache를 잘 compress 시킨다.보통, token에서 q, k, v가 나오면 이걸로 attention을 하는데, (q,k,v..

이전에 읽었던 Visual-RFT: Visual Reinforcement Fine-Tuning랑 비슷한 논문인거같다. 여기서도 object detection 을 명확한 reward function으로 정의하는걸로 강화학습을 했는데, 전체적인 방향은 비슷한거 같다. object detection은 사실 명확한 답이 있는 task라서 이런 방식이 잘 통하는거 같은데, 다른 task들, qa task 등은 어떻게 reward function을 잘 설계할 수 있을지 고민해봐야할거 같다. 사실 reward function 자체가 한계점인거 같기도.. 배경LVLM 은 이미지나 영상을 텍스트와 함께 이해시키기 위해 pretraining fine tunign 이런것들이 사용이 되는데최근에는 Preference Dat..

IntroVisual-RFT: Visual Reinforcement Fine-Tuning 논문에서는 Large Vision-Language Models를 강화학습 기반으로 파인튜닝하는 Visual Reinforcement Fine-Tuning을 제안한다. 기존 많이 사용되던 RLHF와는 달리 Verifiable Reward를 사용하는 GRPO를 활용한다즉, “Visual-RFT”는 기존 SFT방식이 아닌 reward function을 explicit 하게 정의하여 모델이 이미지 입력에 대한 다양한 response 를 만들고, 그 reward 정보를 통해 모델이 스스로 학습하도록 한 점이 핵심이다.LVLMs, GPT-4나 Qwen2-VL 같은 모델들은 크게 pretraining, postraining ..

이 논문은 Google에서 트랜스포머 다음 세대로 제시한 Titans 이라는 논문이다. 모델 구조Titans 아키텍처: 핵심 구성요소와 설계Titans는 (1) Core Module(Short-Term Memory), (2) Long-Term Memory Module, (3) Persistent Memory의 세 가지 메모리 체계를 분리하여 운영하는 “hyper-heads” 아이디어를 제시한다. 구체적으로:Core Module (Short-Term Memory)사실상 Transformer 유사 구조의 어텐션 모듈로서, 제한된 길이(슬라이딩 윈도우 등)의 최근 토큰들에 대해 self-attention을 수행한다.일반적인 Transformer와 동일하게 쿼리-키-밸류 (query-key-value) 어텐션..

보호되어 있는 글입니다.

T2I 디퓨전 모델은 사용자 텍스트 입력에 따라 고품질 이미지를 생성 가능하며, 최근 몇년간 엄청난 발전을 이뤘다. 하지만 현재의 T2I 모델은 생성된 이미지에서 카메라 시점을 이동시키는 유연성이 부족하다. 사용자가 생성된 이미지에서 카메라를 가까이 이동하거나 멀리 두고 싶어도, T2I 모델은 3D 공간에서 적절한 시점 전환을 구현하지 못한다. 이를 해결하기 위한 기존 접근법과 한계1. 3D 데이터셋 기반 모델대규모 3D 데이터셋을 활용하여 단일 이미지에서 새로운 시점을 생성하는 모델을 학습한다. 그치만 object centric하기에, 복잡한 reconstruction을 잘 못한다는 한계가 있음.2. Warping-and-Inpainting 방법T2I 모델과 MDE를 결합한 "warping and in..

티스토리툴바