
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
·
Computer Vision Paper Review
조금 오래된.. 작년 초 논문이긴 하지만, 특정 Task 에서 Sota를 달성하기 위해 어떤 방법을 사용했고, 특히 부족한 데이터셋은 어떻게 해결했는지 궁금해서 읽어봤다. 우선 DeepSeekMath는 수학 벤치마크에서 당시 Sota를 달성했다. 두가지 접근법이 있었는데 아주아주 많은 고품질의 데이터셋을 모은것, 그리고 GRPO 이다. 먼저 아주아주 많은 고품질의 데이터셋은 어떻게 모았을까. 알다시피 데이터셋을 만드는건 돈이 많이 든다. GPT를 태워서 데이터셋을 만들다보면 순식간에 몇백이 나가있을거다.. 여기서 소개한 데이터셋 모으기 파이프라인의 주요 아이디어는, 데이터를 제작하는게 아니고, 이미 있는 데이터셋을 잘 걸러내서 필요한것들을 잘 뽑아내보자 이다. Common Crawl이라는 웹에서 그냥 크..