https://rese1f.github.io/StableVideo/
Wenhao Chai2, Xun Guo2✉, Gaoang Wang1 Yan Lu2, Abstract Diffusion-based methods can generate realistic images and videos, but they struggle to edit existing objects in a video while preserving their appearance over time. This prevents diffusion models fr
rese1f.github.io
Abstract 가 있길래 아래에 가볍게 설명.
Diffusion-based methods는 현실감 있는 이미지와 비디오를 생성하는 방법임. 그러나 이 방법은 비디오 내의 기존 객체를 편집하면서 그 객체의 외관을 시간에 따라 유지하는 데 어려움이 있음. 이러한 한계로 인해 diffusion 모델은 실제 시나리오에서 자연스러운 비디오 편집에 적용하기 어려움.
이 문제를 해결하기 위해 연구자들은 temporal dependency를 기존의 텍스트 기반 diffusion 모델에 도입하였음. 이를 통해 편집된 객체의 외관이 일관되게 생성하도록 함. 특히, 연구자들은 inter-frame propagation mechanism이라는 새로운 메커니즘을 개발, 이 메커니즘은 layered representations라는 개념을 활용하여 한 프레임에서 다음 프레임으로 외관 정보를 전달함.
이 메커니즘을 기반으로 StableVideo라는 텍스트 기반 비디오 편집 프레임워크를 구축함. 이 프레임워크를 통해 일관성을 고려한 비디오 편집이 가능해짐. 이 방법은 강력한 편집 능력을 보여주었으며, 기존의 최첨단 비디오 편집 방법과 비교하여 더 우수한 결과를 보여줌.
'CS & AI study > Github Repo' 카테고리의 다른 글
Code Llama, a state-of-the-art large language model for coding (2) | 2023.08.27 |
---|