Concept-skill Transferability-based Data Selection for Large Vision-Language Models
·
Computer Vision Paper Review
Intro데이터셋이 너무 큰 경우 학습 비용이 너무 많이 든다. 그래서 좋은 데이터만 어떻게 잘 뽑아 쓸까, 에 대한 연구이다.핵심 아이디어는 작은 vlm 을 사용해서, 어떤 데이터가 유용할지 골라낸다. 작은 모델의 내부 representation을 이용해서 training 데이터를 클러스터링을 한다. 그래서 데이터 속에서 concept - skill composition을 파악한다. (street sign/OCR) 이런식으로 어떤 컨셉인지, 그리고 이걸 답하기 위해서는 어떤 skill 이 필요한지 이런식으로 조합하는 느낌인거같다. 이렇게 하면 다양한 데이터를 소량만 뽑아도 성능 유지가 가능하다. 그래서 concept-skill composition으로 클러스터링을 해놓고, 각 클러스터에서 density..
Log-Linear Attention 빠른 트랜스포머!?
·
Computer Vision Paper Review
long context를 어떻게 처리할지, AI에서는 굉장히 중요한 문제이다. Transformer,, 굉장하지만 단점이 너무나도 명확하다. 바로 quadratic-compute 이다. 어디서 bottleneck이 발생하냐면, transformer의 selfattention 그림인데, attention matrix부분을 보자. attention matrix이 n^2 이 되는데, 그럼 number of token이 많아지면 n^2배만큼 quudratic하게 늘어나게 될것이다.
ReVisionLLM: Recursive Vision-Language Model forTemporal Grounding in Hour-Long Videos
·
Computer Vision Paper Review
긴 영상에서 ‘언제, 어떤 일이 일어났는지’를 찾아내는 것을 기존 VLM은 잘 못한다. 프레임 수 한계 때문에 중요한 순간이 누락되기 쉽고, 결과적으로 시간 경계가 흐릿해진다. ReVisionLLM은 이 한계를 극복하기 위해 인간이 영상을 훑는 방식을 모방해서 재귀적 탐색 방식을 사용한다.모델은 먼저 저해상도 전체 scan으로 관심 구간을 대략적으로 지정한다. 이후 해당 구간만 프레임 해상도를 높여 다시 분석하고, 필요하면 더 세밀하게 확대한다. 이렇게 “넓게 → 좁게 → 더 좁게” 과정을 반복하며 최종적으로 초 단위 경계를 산출한다.훈련 과정도 hierachical 하게 설계한다. 짧은 10–30 초 클립에 먼저 사건 인지 능력을 학습시킨 뒤, 점차 길이를 늘려 몇 시간짜리 영상까지 확장 학습을 진행한..
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
·
Computer Vision Paper Review
보호되어 있는 글입니다.
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
·
Computer Vision Paper Review
강화학습은 인간 선호도를 반영하는 데 매우 유용하지만, 단순히 “최종 점수만 주는 보상 모델”은 부정확한 신호를 줄 수 있다. 왜냐하면 추론 과정이 얕거나 불투명하기 쉽기 때문이다.이 문제를 해결하기 위해, 논문에서는 긴 Chain-of-Thought(CoT) 기반 보상 모델을 제안한다. 주요 가정은 다음과 같다:CoT를 통해 다단계 추론을 하면, 보상 신호의 정확도와 신뢰도가 크게 높아진다.모델이 충분히 CoT를 학습하면, “암묵적 추론”만으로도 상당한 성능을 낼 수 있다.이 논문에서는 멀티모달 Reward Model에 긴 CoT 추론을 더해서, 복잡한 비전 task에서 신뢰도 높은 보상 신호를 제공하도록 만든다. 이를 위해,exploration-driven reinforcement fine-tunin..
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
·
Computer Vision Paper Review
조금 오래된.. 작년 초 논문이긴 하지만, 특정 Task 에서 Sota를 달성하기 위해 어떤 방법을 사용했고, 특히 부족한 데이터셋은 어떻게 해결했는지 궁금해서 읽어봤다. 우선 DeepSeekMath는 수학 벤치마크에서 당시 Sota를 달성했다. 두가지 접근법이 있었는데 아주아주 많은 고품질의 데이터셋을 모은것, 그리고 GRPO 이다. 먼저 아주아주 많은 고품질의 데이터셋은 어떻게 모았을까. 알다시피 데이터셋을 만드는건 돈이 많이 든다. GPT를 태워서 데이터셋을 만들다보면 순식간에 몇백이 나가있을거다.. 여기서 소개한 데이터셋 모으기 파이프라인의 주요 아이디어는, 데이터를 제작하는게 아니고, 이미 있는 데이터셋을 잘 걸러내서 필요한것들을 잘 뽑아내보자 이다. Common Crawl이라는 웹에서 그냥 크..
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
·
Computer Vision Paper Review
DeepSeek-R1은, Deepseek V3 pretrained된 base 모델을 reasoning할때 더 잘하게 하기 위해 강화학습을 적용한다. 기존 연구들은 엄청나게 많은 양의 supervised 된 데이터에 의존해서 모델 성능을 높인다. 그치만 DeepSeek R1은 무작정 데이터 양을 늘리는 대신, supervised data없이 reasoning capability를 높이는 방법을 소개한다. 아주아주 바람직한 방향인거 같다.DeepSeek-R1은 먼저 Cold Start SFT로 모델이 초기 추론 구조를 익히도록 도와주고, 그 다음 RL을 통해 추론 과제를 중심으로 성능을 끌어올린다. 이후 대규모 자동 샘플링과 선별 과정을 통해 고품질 데이터를 재구축하고 두 번째 SFT를 수행한다. 마지막으로..
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
·
Computer Vision Paper Review
Scaling up Test time compute 하기 위한 아주 novel한 방법을 제안하는 논문이다. 보통은 Chain of thought을 하면서 모델이 더 많은 토큰을 뱉도록 하는 방식으로 scaling 을 했는데, 이렇게 하면 inference 할때 Sequenth length 가 길어질수록, memory 사용량이 linear 하게 증가하는 문제가 있다. 이 논문에서는 이런 비효율적인 memory 사용량을 recurrent 모델을 통해서 해결을 한다. 단순히 많은 토큰을 내뱉게 해서 test time compute을 scaling up 하는 대신에, recurrent 모델을 쓰는데 어떻게 했는지 하나씩 보자.Model Architecture아이디어만 보자면, 우선 hello 에 대한 late..
Deepseek v3 해부식
·
Computer Vision Paper Review
미루고 미뤄왔던 Deepseek tech report를 차근차근 읽어봤다. 정말 공부할게 많은 tech report 인것 같다. 크게 봐야할 지점이, attention 안에 있는 KV 캐시를 어떻게 효율적으로 바꿨는지, Feed Forward 부분에서 MOE를 어떻게 사용했는지(parameter를 조금만 쓰고 scaling 해서, 조금의 연산량으로 더 큰 모델을 만들수 있다). 그리고 Multi Token Prediction 이 세가지를 위주로 보면 될것 같다. 1) Multi Head Latent Attention여기서는 Q,K,V projection을 변형해서, KV cache를 잘 compress 시킨다.보통, token에서 q, k, v가 나오면 이걸로 attention을 하는데, (q,k,v..
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
·
Computer Vision Paper Review
이전에 읽었던 Visual-RFT: Visual Reinforcement Fine-Tuning랑 비슷한 논문인거같다. 여기서도 object detection 을 명확한 reward function으로 정의하는걸로 강화학습을 했는데, 전체적인 방향은 비슷한거 같다.  object detection은 사실 명확한 답이 있는 task라서 이런 방식이 잘 통하는거 같은데, 다른 task들, qa task 등은 어떻게 reward function을 잘 설계할 수 있을지 고민해봐야할거 같다. 사실 reward function 자체가 한계점인거 같기도.. 배경LVLM 은 이미지나 영상을 텍스트와 함께 이해시키기 위해 pretraining fine tunign 이런것들이 사용이 되는데최근에는 Preference Dat..