기존의 T2V생성모델은, T2I backbone을 시간 모듈을 추가해서 동영상으로 학습시키는 등의 방식으로, 이미지 generation diffusion 모델을 동영상 생성모델로 확장했다. 그리고 최근에는 아주아주 엄청난 소라같은 T2V 모델이 출시되었지만, 이건 회사가 돈이 많아서 가능했던거.. 이걸 학습시키려면 아주 좋은 품질의 동영상이 많이 필요했다.
그래서 이 논문에서는 고품질의 동영상을 사용하지 않고도, high quality 동영상 생성모델을 학습시키기 위한 방법을 제안한다.
핵심아이디어는, 시간모듈만 학습시키는것보다 , 공간 모듈 시간모듈 같이 학습시키면 동영상의 외관과 모션간의 결합이 더 강화되어 더 자연스러운 동작을 얻을 수 있다는것.
데이터 레벨에서, 모션이랑 외관을 분리해서 다루는데, 즉 모션은 저화질 동영상을 사용해서 학습하고, 외관은 고화질 이미지를 사용해서 학습한다. 즉, 두 단계 학습 과정으로, 첫번째 단계에서는, SD 기반의 동영상 모델을 저화질 동영상을 학습한다. 여기서는 주로 동영상의 모션을 학습하는데 집중한다. 두번쨰 단계에서는 외관을 개선하기 위해 고화질 이미지를 사용한다. T2I모델로 생성된 고화질 이미지를 사용해 공간 모듈의 가중치를 finetuning하는 방식으로 최종적으로 high quality 동영상을 생성할 수 있다.
공간 모듈과 시간모듈간의 연결 관계?
1. 시간 모듈이랑 공간 모듈을 모두 학습시킨 모델서공간 모듈을 perturb
2. 시간 모듈만 학습시키고 공간모듈은 고정된 상태로 둔 모델에서 공간 모듈 perturb
이두가지를 비교해서 공간이랑 시간모듈간의 연결관계를 실험해봤음
1번, 즉 fully trained 경우에 pertub해도 모델이 안정적으로 유지되었던 반변
2번의 경우 perturb과정에서 모션 품질이 빠르게 저하되는걸 확인함.
이를 통해 fully trained 모델(시간+공간 모듈 training)이 효과적임을 보였음
그래서 위에서 언급했던대로, 데이터의 한계 때문에
먼저 저화질 동영상을 사용해 동영상 모델을 fully train 시키고,
그다음 고화질 이미지를 사용해 공간 모듈만 직접적으로 finetuning을 함.
이렇게 4가지 방식중, 공간모듈만 직접적으로 finetuning 하는게 성능이 가장 좋았다고함.