비디오 생성을 위한 Google의 새로운 AI 모델 뤼미에르 A가 사용된다 새로운 확산 모델이 호출됩니다. 영상 속 물체가 어디에 있는지(공간), 동시에 어떻게 움직이고 변화하는지(시간) 결정하는 Space-Time-U-Net, 즉 STUNet. 아르스 테크니카 이 방법을 사용하면 Lumiere는 더 작은 스틸 프레임을 함께 연결하는 대신 단일 프로세스로 비디오를 만들 수 있다고 이 방법에 주목합니다.

Lumiere는 벡터에서 기본 프레임을 생성하는 것으로 시작합니다. 그런 다음 STUNet 프레임워크를 사용하여 해당 프레임 내에서 객체가 이동할 위치를 대략적으로 추정하기 시작하여 서로 흐르는 더 많은 프레임을 생성하여 부드러운 동작의 모양을 만듭니다. 또한 Lumiere는 Stable Video Diffusion의 25프레임과 비교하여 80프레임을 생성합니다.

물론 저는 비디오 전문가보다는 텍스트 기자에 더 가깝습니다. 하지만 Google의 보도 자료와 사전 인쇄된 과학 논문은 AI 비디오 제작 및 편집 도구가 불과 몇 년 만에 불쾌한 계곡에서 거의 현실로 변했다는 것을 보여줍니다. . 또한 Runway, Stable Video Diffusion 또는 Meta's Emu와 같은 경쟁업체가 이미 점유하고 있는 공간에서 Google의 기술을 확립합니다. 최초의 양산형 텍스트-비디오 플랫폼 중 하나인 런웨이는 지난해 3월 런웨이 젠-2(Runway Gen-2)를 출시하고 더욱 실감나는 영상을 제공하기 시작했다. 런웨이 영상 역시 액션을 포착하는 데 어려움을 겪습니다.

Google은 친절하게도 Lumiere 사이트에 클립과 프롬프트를 배치하여 Runway 전체에 동일한 프롬프트를 배치하여 비교할 수 있게 했습니다. 결과는 다음과 같습니다.

예, 제시된 클립 중 일부는 산업적 느낌을 갖고 있습니다. 특히 피부 질감을 자세히 살펴보거나 장면이 좀 더 분위기 있는 경우라면 더욱 그렇습니다. 하지만 저 거북이 좀 보세요! 그녀는 물속에서 거북이처럼 움직입니다! 진짜 거북이 같아요! 전문 영상 편집자인 친구에게 뤼미에르 소개 영상을 보냈습니다. 그녀는 “이것이 현실이 아니라는 것을 확실히 알 수 있다”고 언급했지만, 내가 그녀에게 그것이 AI라고 말하지 않으면 그녀는 그것이 CGI라고 생각할 것이라는 점이 인상적이라고 생각했습니다. (그녀는 또한 “그렇게 하면 내 직업이 필요하지 않을까요?”라고 말했습니다.)

다른 모델은 실제로 동작이 발생한 위치에서 생성된 키프레임에서 비디오 클립을 연결하는 반면(종이책의 그림을 생각해 보세요), STUNet을 사용하면 Lumiere가 비디오의 특정 시간에 생성된 콘텐츠가 있어야 하는 위치를 기반으로 동작 자체에 집중할 수 있습니다.

Google은 텍스트-비디오 부문에서 큰 비중을 차지하지는 않았지만 점점 더 발전된 AI 모델을 출시하고 멀티미디어에 중점을 두었습니다. 그의 Gemini Grand Language 모델은 결국 Bard에 이미지 생성을 가져올 것입니다. Lumiere는 아직 테스트할 수 없지만 Runway 및 Pika와 같이 일반적으로 사용 가능한 AI 비디오 생성기와 비슷하거나 약간 더 나은 AI 비디오 플랫폼을 개발하는 Google의 능력을 보여줍니다. 참고로 이곳은 몇 년 전 Google이 AI 비디오를 개발한 곳입니다.

2022년 Google Imagen 클립
이미지: 구글

Lumiere는 텍스트에서 비디오로의 변환 외에도 이미지에서 비디오로의 변환, 스타일화된 생성, 사용자가 특정 스타일로 비디오를 만들 수 있도록 허용, 비디오의 일부에만 애니메이션을 적용하는 영화 그래픽, 색상이나 스타일을 변경하려면 비디오 영역을 마스킹하세요.

그러나 Google Lumiere의 연구에서는 “우리 기술을 사용하여 가짜 또는 악의적인 콘텐츠를 만드는 것은 남용의 위험이 있으며 안전하고 공정한 경험을 보장하기 위해 편견과 악의적 사용 사례를 탐지하는 도구를 개발하고 구현하는 것이 필수적이라고 믿습니다. .” 사용됩니다.” 논문의 저자는 이것이 어떻게 달성될 수 있는지 설명하지 않았습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

Nintendo는 ‘Emio’의 불안한 예고편을 공개하고 팬들은 혼란스러워합니다.

참여 닌텐도 라이브 ~에 유튜브771천 Nintendo는 다양한 YouTube 채널에서 충격적인 15초 예고편을…

팔월드 개발사, 동시접속자 증가에 따라 에픽과 긴급회의

엘리아나 볼라티 ❘ 출판됨: 2024-01-21T04:40:47 ❘ 업데이트됨: 2024-01-21T04:40:58 Palworld는 출시 이후 왼쪽,…

더 나은 사운드, 더 나은 그래픽, 더 나은 피직스 – Gran Turismo 7 مراجعة 리뷰

사람들이 음성 메모를 보내는 이유는 무엇입니까? Z세대는 음성이 텍스트보다 더 개인적이라고 말합니다.

Dailymail.Com의 Andrea Cavalier 작성 2023년 4월 30일 18:09 업데이트됨 2023년 4월 30일…