Concept-skill Transferability-based Data Selection for Large Vision-Language Models
·
Computer Vision Paper Review
Intro데이터셋이 너무 큰 경우 학습 비용이 너무 많이 든다. 그래서 좋은 데이터만 어떻게 잘 뽑아 쓸까, 에 대한 연구이다.핵심 아이디어는 작은 vlm 을 사용해서, 어떤 데이터가 유용할지 골라낸다. 작은 모델의 내부 representation을 이용해서 training 데이터를 클러스터링을 한다. 그래서 데이터 속에서 concept - skill composition을 파악한다. (street sign/OCR) 이런식으로 어떤 컨셉인지, 그리고 이걸 답하기 위해서는 어떤 skill 이 필요한지 이런식으로 조합하는 느낌인거같다. 이렇게 하면 다양한 데이터를 소량만 뽑아도 성능 유지가 가능하다. 그래서 concept-skill composition으로 클러스터링을 해놓고, 각 클러스터에서 density..