화요일에는 AI가 안정화됐다. 출시된 Stable Video Diffusion은 스틸 이미지를 짧은 비디오로 변환할 수 있는 새로운 무료 AI 기반 연구 도구로 다양한 결과를 제공합니다. 이는 이미지-비디오라는 기술을 사용하고 Nvidia GPU가 있는 시스템에서 로컬로 실행할 수 있는 두 가지 AI 모델의 공개 미리보기입니다.
작년에 Stability AI는 개방형 이미지 합성의 물결을 일으키고 자체 맞춤형 개선으로 기술을 구축한 대규모 애호가 커뮤니티에 영감을 준 “개방형 무게” 이미지 합성 모델인 Stable Diffusion을 출시하여 큰 반향을 일으켰습니다. 환경. Stability는 이제 기술이 아직 초기 단계이지만 AI 비디오 합성에서도 동일한 작업을 수행하려고 합니다.
현재 Stable Video Diffusion은 두 가지 모델로 구성되어 있습니다. 하나는 14프레임에서 이미지-비디오 합성을 생성할 수 있는 모델(“SVD”라고 함)이고 다른 하나는 25프레임을 생성하는 모델(“SVD-XT”라고 함)입니다. 초당 3~30프레임의 다양한 속도로 작동할 수 있으며 576 x 1024의 해상도로 짧은 MP4 비디오(보통 2~4초 길이)를 출력합니다.
로컬 테스트에서는 Nvidia RTX 3060 그래픽 카드에서 14프레임 생성을 생성하는 데 약 30분이 걸렸지만 사용자는 다음과 같은 서비스를 통해 클라우드에서 훨씬 빠르게 실행되는 모델을 경험할 수 있습니다. 얼굴 포옹 그리고 복제 (그 중 일부는 비용을 지불해야 할 수도 있습니다). 우리 실험에서 생성된 애니메이션은 일반적으로 장면의 일부를 그대로 유지하고 팬 및 확대/축소 효과나 애니메이션 연기 또는 불을 추가합니다. 사진 속의 사람들은 종종 움직이지 않지만 약간 활기를 주기 위해 Steve Wozniak의 Getty 사진을 얻었습니다.
(참고: Steve Wozniak Getty Images 이미지 외에 이 기사의 다른 애니메이션은 DALL-E 3을 사용하여 제작되었으며 Stable Video Diffusion을 사용하여 애니메이션되었습니다.)
이러한 제한 사항을 고려할 때 안정성은 모델이 아직 초기 단계이며 연구용으로만 사용된다는 점을 강조합니다. “우리는 최신 개발 사항으로 모델을 열심히 업데이트하고 여러분의 피드백을 반영하기 위해 노력하고 있지만, 이 모델은 현 단계에서 실제 또는 상업용 응용 프로그램을 위한 것이 아닙니다. 안전과 품질에 대한 여러분의 통찰력과 피드백은 이 모델을 개선하는 데 중요합니다. 최종 릴리스”라고 회사는 웹 사이트에 썼습니다.
안정화된 비디오의 보급은 주목할 가치가 있지만 아마도 놀라운 것은 아닙니다. 연구 논문 모델에 대한 훈련 데이터세트의 출처는 밝히지 않았지만, 연구팀이 580개로 구성된 LVD(Large Video Dataset)로 구성한 “약 6억 개 샘플의 대규모 비디오 데이터세트”를 사용했다고만 말합니다. 백만 개의 주석이 달린 동영상. 212년에 걸친 콘텐츠.
Stable Video Diffusion은 이러한 유형의 기능을 제공하는 최초의 AI 모델이 아닙니다. 이전에는 Meta, Google 및 Adobe의 방법을 포함한 다른 AI 비디오 합성 방법을 다루었습니다. 우리는 또한 오픈 소스 ModelScope와 현재 최고의 AI 비디오 모델로 간주되는 Runway의 Gen-2 모델(베카 연구소 또 다른 AI 기반 비디오 제공업체입니다.) Stability AI는 이미지 대신 서면 메시지를 사용하여 짧은 비디오를 만들 수 있는 텍스트-비디오 모델도 개발 중이라고 밝혔습니다.
안정적인 비디오의 소스 및 전파 가중치 사용 가능 GitHub에서 로컬로 테스트하는 또 다른 쉬운 방법은 파일을 통해 실행하는 것입니다. 피노키오 플랫폼설치 종속성을 쉽게 처리하고 자체 환경에서 모델을 실행합니다.