Kaleido DIffusion: Improving Conditional DIffusion Models with Autoregressive Latent Modeling
·
Computer Vision Paper Review
classifier free guidance 가 만능이 아님을 느끼게 해주는 논문이었다classifier free guidance도 어떻게 보면 sample 의 diversity를 희생시키면서 guiding 하는거니까 그런가보다CFG를 temperature adjusted distribution으로 해석하는 부분도 재밌었다마트료시카 디퓨전? 처음 들어보는 거였는데, implementation 백본으로 마트료시카 디퓨전을 썼다고 해서 논문 찾아봤는데 이것도 꽤 흥미로웠다어떻게 12 million 이미지만으로 stable diffusion이랑 겨룰 수 있지? 물론 지금 stable diffusion이 더 잘하긴 하지만 stable 디퓨전은 최소! 600million부터 시작하는데 그냥 스케일이 다른듯,,굳이..
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
·
Computer Vision Paper Review
AbstractRecaption, Plan, and Generate라는 새로운, training이 필요없는 text-image generation/editing framework를 제안하는 논문이다.Recaption(다시 설명하기) 단계에서는 입력된 복잡한 텍스트 설명을 이해하고, 이를 여러 간단한 설명으로 나눈다. Plan(계획하기) 단계에서는, 이렇게 나뉜 각각의 설명에 따라 이미지를 어떻게 생성할지 계획을 세우며, 이 단계에서는 MLLM을 사용해 전체 이미지를 만들기 위한 계획을 세운다. Generate(생성하기) 단계에서는 각 부분 설명에 맞는 이미지를 생성하고, 이를 조합해서 최종 이미지를 만든다. 이때 regional하게 이미지를 생성하는 " complementary regional diffu..
4Real: Towards Photorealistic 4D Scene Generationvia Video Diffusion Models
·
Computer Vision Paper Review
Abstract+ intro기존에는 pretrained된 3D를 synthetic object datasets를 finetuning 하는 방법으로  dynamic scene generation을 한다. 근데 이 방식대로 fine tuning 을 하면 생성된 장면이 object 중심적이고, 현실감이 부족한 문제가 있음. 그래서 이 논문에서는 이런 한계를 극복하기 위해 새로운 파이프라인을 도입했음. Multi view 생성 모델에 의존하지 앟고, 대신 large scale 실제 비디오로 훈련된 비디오 생성모델을 사용해 더 다양한 형태, 움직입, 객체랑 background의 상호작용등을 포착함. 그리고 동적 장면을 표현하기 위해 변형 가능한 3d 가우시안 splat D-3DGS를 사용함. 그래서 파이프라인을 ..
Auto-Encoding Variational Bayes
·
Computer Vision Paper Review
VAE에 대해 이해하기전에 autoencoder부터 보면Autoencoder?Autoencoder 기본 구조오토인코더는 입력 데이터 X를 받아 더 낮은 차원의 latent representation Z로 인코딩한 뒤, 이를 다시 입력 데이터와 같은 차원의 출력 X′로 복원하는 신경망 구조이다. 크게 두부분으로 나뉘는데,인코더 : 입력 데이터 X를 받아 잠재 표현 Z로 변환디코더(Decoder): 잠재 표현 Z를 받아 원본 데이터와 유사한 데이터 X′로 복원함오토인코더의 한계전통적인 오토인코더는 데이터의 잠재 표현 Z를 어떻게 사용해 새로운 샘플을 생성할지에 대한 명확한 방법이 없고, 잠재 공간의 분포에 대한 가정이 없기 때문에, 잠재 변수 Z에서 샘플을 임의로 추출하여 의미 있는 새로운 데이터를 생성하기..
4Real: Towards Photorealistic 4D Scene Generationvia Video Diffusion Models
·
Computer Vision Paper Review
보호되어 있는 글입니다.
Mask RCNN
·
Computer Vision Paper Review
Segmentation, 그 중 instance segmentation(object detection+ semantic segmentation) 을 위한 모델이다 Faster RCNN처럼 두가지 단계를 거쳐 학습된다. RPNFaster RCNN은 피쳐맵을 RPN에 넘겨서 region of interest를 얻고, 이걸 roi pooling 시켜서 고정된 크기의 피쳐맵으로 다시만들어서 fc layer에 넘겨주는 방식. 여기에  bounding box regression branch랑 classification branch를 달아서 바운딩박스 offset이랑 클래스 label이 예측됨 그럼  Mask RCNN은 ?Faster RCNN이랑 거의 동일한데, ROI pooling 말고 roi align을 사용했다..
CAT3D: Create Anything in 3Dwith Multi-View Diffusion Models
·
Computer Vision Paper Review
보호되어 있는 글입니다.
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment fromFine-grained Correctional Human Feedback
·
Computer Vision Paper Review
Abstract & Intro멀티모달 대형 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해하고 처리하는 능력을 보여준다. 그러나 현재의 MLLM은 종종 이미지와 관련 없는 잘못된 정보를 생성하는 문제를 가지고 있다. 이런 문제는 특히 신뢰성이 중요한 상황에서 MLLM을 실용적으로 사용하기 어렵게 만든다.이를 해결하기 위해 RLHF-V라는 새로운 접근법이 소개된다. RLHF-V는 인간의 세밀한 피드백을 활용하여 모델의 행동을 조정함으로써 MLLM의 신뢰성을 향상시킨다. 구체적으로, RLHF-V는 인간이 모델이 잘못 이해한 부분을 수정한 내용을 수집한다. 그런 다음, 이 피드백을 기반으로 모델을 최적화하여, 모델이 텍스트와 이미지를 더 정확하게 일치시킬 수 있도록 한다.전통적인 인간 피드백을 활용한 강..
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation
·
Computer Vision Paper Review
Intro최근 video diffusion 모델은 쉽게 접근 가능해졌는데, 이런 모델은 비디오 생성할때 카메라 포즈를 정밀하게 제어하는 기능을 제공하지 않아서, 사용자가 제어하는데 한계가 있었음. 이 문제를 해결하기 위해 CamCO가 도입되었다. CamCo는 image-video 생성 과정에서 세밀한 카메라 포즈 제어를 가능하게 한다. CamCO는 pretrained된 image-video 생성기에 Plücker 좌표를 사용해 정확하게 parametereized 된 camera 포즈 입력을 제공한다. 비디오의 3d consistency를 향상시키기 위해 각 attention block에 epipolar 제약을 추가한 epipolar attention module을 통합했고, structure-from-m..
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
·
Computer Vision Paper Review
보호되어 있는 글입니다.