The Belief State Transformer
·
NLP
보호되어 있는 글입니다.
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
·
robot
ACT, Architecture of Action Chunking with TransformersACT란, imitation learning 알고리즘으로 fine grain하게 로봇을 조종하기 위한 알고리즘이다. 집에 로봇을 조립한 기념으로 읽어봤다. 처음 접하는 분야라 뭐부터 읽어야할지 모르겠어서 추천을 받아왔다. 최근까지도 가장 많이 쓰이는 방식이라고한다.참 흥미로운 로봇세상이다 느리지만 RTX 4050에서 vla 학습이랑 inference 다 잘돌아간다 single step을 predict하는 대신에 chunks of action을 예측한다는게 핵심 아이디어이다. Conditional Variational Autoenncoder , CVAE를 transformer로 만든 구조이다.현재 joint s..
Concept-skill Transferability-based Data Selection for Large Vision-Language Models
·
Computer Vision Paper Review
Intro데이터셋이 너무 큰 경우 학습 비용이 너무 많이 든다. 그래서 좋은 데이터만 어떻게 잘 뽑아 쓸까, 에 대한 연구이다.핵심 아이디어는 작은 vlm 을 사용해서, 어떤 데이터가 유용할지 골라낸다. 작은 모델의 내부 representation을 이용해서 training 데이터를 클러스터링을 한다. 그래서 데이터 속에서 concept - skill composition을 파악한다. (street sign/OCR) 이런식으로 어떤 컨셉인지, 그리고 이걸 답하기 위해서는 어떤 skill 이 필요한지 이런식으로 조합하는 느낌인거같다. 이렇게 하면 다양한 데이터를 소량만 뽑아도 성능 유지가 가능하다. 그래서 concept-skill composition으로 클러스터링을 해놓고, 각 클러스터에서 density..
collection
·
카테고리 없음
보호되어 있는 글입니다.
Log-Linear Attention 빠른 트랜스포머!?
·
Computer Vision Paper Review
long context를 어떻게 처리할지, AI에서는 굉장히 중요한 문제이다. Transformer,, 굉장하지만 단점이 너무나도 명확하다. 바로 quadratic-compute 이다. 어디서 bottleneck이 발생하냐면, transformer의 selfattention 그림인데, attention matrix부분을 보자. attention matrix이 n^2 이 되는데, 그럼 number of token이 많아지면 n^2배만큼 quudratic하게 늘어나게 될것이다.
ReVisionLLM: Recursive Vision-Language Model forTemporal Grounding in Hour-Long Videos
·
Computer Vision Paper Review
긴 영상에서 ‘언제, 어떤 일이 일어났는지’를 찾아내는 것을 기존 VLM은 잘 못한다. 프레임 수 한계 때문에 중요한 순간이 누락되기 쉽고, 결과적으로 시간 경계가 흐릿해진다. ReVisionLLM은 이 한계를 극복하기 위해 인간이 영상을 훑는 방식을 모방해서 재귀적 탐색 방식을 사용한다.모델은 먼저 저해상도 전체 scan으로 관심 구간을 대략적으로 지정한다. 이후 해당 구간만 프레임 해상도를 높여 다시 분석하고, 필요하면 더 세밀하게 확대한다. 이렇게 “넓게 → 좁게 → 더 좁게” 과정을 반복하며 최종적으로 초 단위 경계를 산출한다.훈련 과정도 hierachical 하게 설계한다. 짧은 10–30 초 클립에 먼저 사건 인지 능력을 학습시킨 뒤, 점차 길이를 늘려 몇 시간짜리 영상까지 확장 학습을 진행한..
command collection
·
개발
보호되어 있는 글입니다.
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
·
Computer Vision Paper Review
보호되어 있는 글입니다.
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
·
Computer Vision Paper Review
강화학습은 인간 선호도를 반영하는 데 매우 유용하지만, 단순히 “최종 점수만 주는 보상 모델”은 부정확한 신호를 줄 수 있다. 왜냐하면 추론 과정이 얕거나 불투명하기 쉽기 때문이다.이 문제를 해결하기 위해, 논문에서는 긴 Chain-of-Thought(CoT) 기반 보상 모델을 제안한다. 주요 가정은 다음과 같다:CoT를 통해 다단계 추론을 하면, 보상 신호의 정확도와 신뢰도가 크게 높아진다.모델이 충분히 CoT를 학습하면, “암묵적 추론”만으로도 상당한 성능을 낼 수 있다.이 논문에서는 멀티모달 Reward Model에 긴 CoT 추론을 더해서, 복잡한 비전 task에서 신뢰도 높은 보상 신호를 제공하도록 만든다. 이를 위해,exploration-driven reinforcement fine-tunin..
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
·
Computer Vision Paper Review
조금 오래된.. 작년 초 논문이긴 하지만, 특정 Task 에서 Sota를 달성하기 위해 어떤 방법을 사용했고, 특히 부족한 데이터셋은 어떻게 해결했는지 궁금해서 읽어봤다. 우선 DeepSeekMath는 수학 벤치마크에서 당시 Sota를 달성했다. 두가지 접근법이 있었는데 아주아주 많은 고품질의 데이터셋을 모은것, 그리고 GRPO 이다. 먼저 아주아주 많은 고품질의 데이터셋은 어떻게 모았을까. 알다시피 데이터셋을 만드는건 돈이 많이 든다. GPT를 태워서 데이터셋을 만들다보면 순식간에 몇백이 나가있을거다.. 여기서 소개한 데이터셋 모으기 파이프라인의 주요 아이디어는, 데이터를 제작하는게 아니고, 이미 있는 데이터셋을 잘 걸러내서 필요한것들을 잘 뽑아내보자 이다. Common Crawl이라는 웹에서 그냥 크..