화요일에는 AI가 안정화됐다. 출시된 Stable Video Diffusion은 스틸 이미지를 짧은 비디오로 변환할 수 있는 새로운 무료 AI 기반 연구 도구로 다양한 결과를 제공합니다. 이는 이미지-비디오라는 기술을 사용하고 Nvidia GPU가 있는 시스템에서 로컬로 실행할 수 있는 두 가지 AI 모델의 공개 미리보기입니다.
작년에 Stability AI는 개방형 이미지 합성의 물결을 일으키고 자체 맞춤형 개선으로 기술을 구축한 대규모 애호가 커뮤니티에 영감을 준 “개방형 무게” 이미지 합성 모델인 Stable Diffusion을 출시하여 큰 반향을 일으켰습니다. 환경. Stability는 이제 기술이 아직 초기 단계이지만 AI 비디오 합성에서도 동일한 작업을 수행하려고 합니다.
현재 Stable Video Diffusion은 두 가지 모델로 구성되어 있습니다. 하나는 14프레임에서 이미지-비디오 합성을 생성할 수 있는 모델(“SVD”라고 함)이고 다른 하나는 25프레임을 생성하는 모델(“SVD-XT”라고 함)입니다. 초당 3~30프레임의 다양한 속도로 작동할 수 있으며 576 x 1024의 해상도로 짧은 MP4 비디오(보통 2~4초 길이)를 출력합니다.
로컬 테스트에서는 Nvidia RTX 3060 그래픽 카드에서 14프레임 생성을 생성하는 데 약 30분이 걸렸지만 사용자는 다음과 같은 서비스를 통해 클라우드에서 훨씬 빠르게 실행되는 모델을 경험할 수 있습니다. 얼굴 포옹 그리고 복제 (그 중 일부는 비용을 지불해야 할 수도 있습니다). 우리 실험에서 생성된 애니메이션은 일반적으로 장면의 일부를 그대로 유지하고 팬 및 확대/축소 효과나 애니메이션 연기 또는 불을 추가합니다. 사진 속의 사람들은 종종 움직이지 않지만 약간 활기를 주기 위해 Steve Wozniak의 Getty 사진을 얻었습니다.
(참고: Steve Wozniak Getty Images 이미지 외에 이 기사의 다른 애니메이션은 DALL-E 3을 사용하여 제작되었으며 Stable Video Diffusion을 사용하여 애니메이션되었습니다.)
이러한 제한 사항을 고려할 때 안정성은 모델이 아직 초기 단계이며 연구용으로만 사용된다는 점을 강조합니다. “우리는 최신 개발 사항으로 모델을 열심히 업데이트하고 여러분의 피드백을 반영하기 위해 노력하고 있지만, 이 모델은 현 단계에서 실제 또는 상업용 응용 프로그램을 위한 것이 아닙니다. 안전과 품질에 대한 여러분의 통찰력과 피드백은 이 모델을 개선하는 데 중요합니다. 최종 릴리스”라고 회사는 웹 사이트에 썼습니다.
안정화된 비디오의 보급은 주목할 가치가 있지만 아마도 놀라운 것은 아닙니다. 연구 논문 모델에 대한 훈련 데이터세트의 출처는 밝히지 않았지만, 연구팀이 580개로 구성된 LVD(Large Video Dataset)로 구성한 “약 6억 개 샘플의 대규모 비디오 데이터세트”를 사용했다고만 말합니다. 백만 개의 주석이 달린 동영상. 212년에 걸친 콘텐츠.
Stable Video Diffusion은 이러한 유형의 기능을 제공하는 최초의 AI 모델이 아닙니다. 이전에는 Meta, Google 및 Adobe의 방법을 포함한 다른 AI 비디오 합성 방법을 다루었습니다. 우리는 또한 오픈 소스 ModelScope와 현재 최고의 AI 비디오 모델로 간주되는 Runway의 Gen-2 모델(베카 연구소 또 다른 AI 기반 비디오 제공업체입니다.) Stability AI는 이미지 대신 서면 메시지를 사용하여 짧은 비디오를 만들 수 있는 텍스트-비디오 모델도 개발 중이라고 밝혔습니다.
안정적인 비디오의 소스 및 전파 가중치 사용 가능 GitHub에서 로컬로 테스트하는 또 다른 쉬운 방법은 파일을 통해 실행하는 것입니다. 피노키오 플랫폼설치 종속성을 쉽게 처리하고 자체 환경에서 모델을 실행합니다.
“재화는 뛰어난 분석 능력을 가진 분석가로, 다양한 주제에 대한 깊은 통찰력을 가지고 있습니다. 그는 창조적인 아이디어를 바탕으로 여러 프로젝트를 주도해왔으며, 좀비 문화에 특별한 애정을 갖고 있습니다. 여행을 사랑하며, 대중 문화에 대한 그의 지식은 깊고 폭넓습니다. 알코올에 대한 그의 취향도 독특합니다.”