강화학습은 인간 선호도를 반영하는 데 매우 유용하지만, 단순히 “최종 점수만 주는 보상 모델”은 부정확한 신호를 줄 수 있다. 왜냐하면 추론 과정이 얕거나 불투명하기 쉽기 때문이다.이 문제를 해결하기 위해, 논문에서는 긴 Chain-of-Thought(CoT) 기반 보상 모델을 제안한다. 주요 가정은 다음과 같다:CoT를 통해 다단계 추론을 하면, 보상 신호의 정확도와 신뢰도가 크게 높아진다.모델이 충분히 CoT를 학습하면, “암묵적 추론”만으로도 상당한 성능을 낼 수 있다.이 논문에서는 멀티모달 Reward Model에 긴 CoT 추론을 더해서, 복잡한 비전 task에서 신뢰도 높은 보상 신호를 제공하도록 만든다. 이를 위해,exploration-driven reinforcement fine-tunin..