ReVisionLLM: Recursive Vision-Language Model forTemporal Grounding in Hour-Long Videos

긴 영상에서 ‘언제, 어떤 일이 일어났는지’를 찾아내는 것을 기존 VLM은 잘 못한다. 프레임 수 한계 때문에 중요한 순간이 누락되기 쉽고, 결과적으로 시간 경계가 흐릿해진다. ReVisionLLM은 이 한계를 극복하기 위해 인간이 영상을 훑는 방식을 모방해서 재귀적 탐색 방식을 사용한다.

모델은 먼저 저해상도 전체 scan으로 관심 구간을 대략적으로 지정한다. 이후 해당 구간만 프레임 해상도를 높여 다시 분석하고, 필요하면 더 세밀하게 확대한다. 이렇게 “넓게 → 좁게 → 더 좁게” 과정을 반복하며 최종적으로 초 단위 경계를 산출한다.

훈련 과정도 hierachical 하게 설계한다. 짧은 10–30 초 클립에 먼저 사건 인지 능력을 학습시킨 뒤, 점차 길이를 늘려 몇 시간짜리 영상까지 확장 학습을 진행한다. 이 덕분에 모델은 다양한 길이의 영상을 자연스럽게 처리한다.

Model

Multimodal Encoder

$f^{t}$	한 프레임의 CLS 임베딩	$\mathbb{R}^{D}$	$D = 768$
$F$	전체 비디오 시퀀스 $[\!f^{1},\dots,f^{T}\!]$	$\mathbb{R}^{T\times D}$	$T = 3\,600$
$Q$	쿼리 토큰 임베딩	$\mathbb{R}^{N_{s}\times D}$	$N_{s}=32$

이렇게 두 모달리티가 $D$ 차원을 공유한다.

Hierarchical Adapter

상위 계층에서는 전체 영상(1 h)을 3 분마다 1 토큰으로 압축한 Sparse Feature $S$를 사용한다.
이를 통해 “18–21 분 구간에 이벤트 있음”과 같은 대강의 위치를 찾는다.
하위 계층에서는 이 구간을 원래 프레임 해상도의 Dense Feature $D$로 확대하여 “18:32 – 19:07” 식으로 정확한 경계를 예측한다.

정리하자면:

① 슬라이딩 윈도	$F \rightarrow \{C^{i}\}$	$\mathbb{R}^{T\times D}\; \rightarrow\; \mathbb{R}^{L_{w}\times D}$	1 시간 시퀀스를 2 분(120 f) 단위로 분할한다.
② Dense 프로젝션	$D^{i}=h_{d}(C^{i})$	$\mathbb{R}^{L_{w}\times D}$	프레임 정보를 그대로 유지한다.
③ Cross-Attn 정렬	$\tilde C^{i}=\text{CrossAttn}(C^{i},Q)$	동일 Shape	질문과 연관된 프레임에 가중치를 준다.
④ Self-Attn 압축	$S^{i}=A_{0}$	$\mathbb{R}^{D}$	“클립 1개 = 토큰 1개”로 축소한다.

LLM 입력 & prediction

프롬프트 템플릿

<video> when can we see the <event> happening?

<video> 자리에는 계층별 비디오 피처 $I^{(\ell)}$(=$D$ 또는 $S$)를 삽입한다.
완성된 입력은 $P^{(\ell)}=[\,I^{(\ell)}, w_{1},\dots,w_{M}]$ 이 된다.

$\ell=1$	Sparse $S$ + 프롬프트	`From 120 to 240.` 또는 `Not Present.`	영상 전체를 훑어 거친 구간을 찾는다.
$\ell>1$	직전 결과 구간을 잘라 Dense/Sparse로 변환 후 입력	`From s to e.`	점차 해상도를 높여 경계를 정밀화한다.

각 계층에서 목표 문장 토큰 시퀀스 $T^{(\ell)}$에 대해 $$ \mathcal{L} = -\sum_{k=1}^{K} \log p\!\Bigl( T_{k}^{(\ell)} \;\big|\; T_{\lt k}^{(\ell)},\, P^{(\ell)} \Bigr) $$ 로 loss를 최소화한다.

Training

Stage 1-A(Dense, 짧은 클립)	• 10–30 초 Positive·Negative 클립에 대해 “From s to e.” 또는 “Not Present.” 생성	• boundary regression을 먼저 익혀 framing 감각 학습• Negative 클립으로 over-confidence 완화	LoRA(LLM) + Hier-Adapter 모두 학습
Stage 1-B(Sparse, 짧은 클립)	• LLM 가중치 Freeze 후• Adapter만 학습해 Down-sample 규칙 최적화• 프롬프트: “<video> Does the <event> happen? yes/no”	• Adapter가 “정보를 얼마만큼/어디서 버릴지” 배우게 함• 목표는 존재 여부만 예측 → 문제를 단순화	Hier-Adapter만 학습
Stage 2(Sparse, 1 h 영상)	• Stage 1-B가 만들어 둔 Sparse 토큰(예: 3 분 간격)으로 1시간 영상을 훑음 • 다시 “From s to e.” 문장 생성	• Sparse 토큰 덕분에 긴 영상을 검색• 이미 정렬된 피처이므로 LoRA만 파인튜닝해도 충분	LoRA(LLM) 만 파인튜닝

학습 intuitive는

먼저 짧은 클립에서 ‘언제’와 ‘없음’을 확실히 가르친다, 이후 같은 짧은 클립을 다시 보되, 이번엔 어댑터만 학습해 ‘요약 토큰’ 만드는 법을 배운다. 이제 1 시간짜리 영상도, 3 분 간격 Sparse 토큰 20~30개만 보고 대강 위치를 찍을 수 있다. 필요하면 Stage 2가 찾아낸 구간을 다시 Dense 피처(=Stage 1-A 방식)로 확대해 프레임 단위 경계까지 정밀화한다.

Inference with Calibrated Confidence

ReVisionLLM은 CLIP 유사도 대신 LLM 자체의 확신 정도로 후보 경계들을 reorganize한다. 이를 위해 예측 문장에 대한 entrophy기반 confidence를 다음과 같이 계산한다.

단어-단위 entrophy를 구한다.
$$ H^{(i)}_k = -\sum_{w} p\!\bigl(w\,\big|\,T_{<k},\,\mathcal D^{(i)}\bigr)\; \log p\!\bigl(w\,\big|\,T_{<k},\,\mathcal D^{(i)}\bigr) $$ 여기서 $p(w\,|\,\cdot)$은 k 번째 단어를 생성할 확률 분포를 뜻한다. 값이 클수록 모델은 해당 위치에서 확신이 없다고 해석된다.
문장 전체 entrophy를 평균한다.
$$ \bar H^{(i)} = \frac1K \sum_{k=1}^{K} H^{(i)}_{k} $$ $K$ 는 생성된 단어 수다.
entrophy의 역수를 취해 신뢰도 $R^{(i)}$를 얻는다.
$$ R^{(i)} \;=\; \frac{1}{\displaystyle \frac1K \sum_{k=1}^{K} H^{(i)}_{k}} $$ $\bar H^{(i)}$가 작을수록, 즉 확률 분포가 뾰족할수록 $R^{(i)}$ 값은 커지고 모델이 스스로 확신한다는 뜻이 된다.

모델은 모든 후보 구간에 대해 $R^{(i)}$를 계산한다. 그다음 상위 top K만 선택하여 후속 계층 혹은 최종 출력에 사용한다.

\(f^{t}\)	한 프레임의 CLS 임베딩	\(\mathbb{R}^{D}\)	\(D = 768\)
\(F\)	전체 비디오 시퀀스 \([\!f^{1},\dots,f^{T}\!]\)	\(\mathbb{R}^{T\times D}\)	\(T = 3\,600\)
\(Q\)	쿼리 토큰 임베딩	\(\mathbb{R}^{N_{s}\times D}\)	\(N_{s}=32\)

① 슬라이딩 윈도	\(F \rightarrow \{C^{i}\}\)	\(\mathbb{R}^{T\times D}\; \rightarrow\; \mathbb{R}^{L_{w}\times D}\)	1 시간 시퀀스를 2 분(120 f) 단위로 분할한다.
② Dense 프로젝션	\(D^{i}=h_{d}(C^{i})\)	\(\mathbb{R}^{L_{w}\times D}\)	프레임 정보를 그대로 유지한다.
③ Cross-Attn 정렬	\(\tilde C^{i}=\text{CrossAttn}(C^{i},Q)\)	동일 Shape	질문과 연관된 프레임에 가중치를 준다.
④ Self-Attn 압축	\(S^{i}=A_{0}\)	\(\mathbb{R}^{D}\)	“클립 1개 = 토큰 1개”로 축소한다.

\(\ell=1\)	Sparse \(S\) + 프롬프트	`From 120 to 240.` 또는 `Not Present.`	영상 전체를 훑어 거친 구간을 찾는다.
\(\ell>1\)	직전 결과 구간을 잘라 Dense/Sparse로 변환 후 입력	`From s to e.`	점차 해상도를 높여 경계를 정밀화한다.

Model

Multimodal Encoder

Hierarchical Adapter

LLM 입력 & prediction

Training

Inference with Calibrated Confidence

티스토리툴바