Nvidia의 새로운 텍스트-3D 모델은 생성 AI가 얼마나 빠르게 발전하고 있는지 보여줍니다.

엔비디아는 순항 중입니다. GPT, Claude 및 Gemini와 같은 보다 강력한 AI 모델을 훈련하도록 설계된 Blackwell 슈퍼칩을 공개한 후 텍스트를 3D로 변환하는 자체 AI 도구를 공개했습니다(소비자 옵션을 위한 최고의 그래픽 카드에 대한 가이드 참조).

그래픽 카드 대기업은 “가상 3D 프린터”라고 설명하는 텍스트-3D 생성 AI 모델인 LATTE3D를 선보이며 GTC 주간을 마감했습니다. 1초 안에 텍스트 프롬프트를 사물과 동물의 3D 표현으로 변환할 수 있습니다.

Nvidia는 LATTE3D로 만든 3D 모양이 “비디오 게임 개발, 광고 캠페인, 디자인 프로젝트 또는 로봇을 위한 가상 훈련 공간을 위한 가상 환경으로 쉽게 렌더링될 수 있다”고 말합니다. 우리는 이전에 텍스트를 3D로 변환하는 도구를 본 적이 있으며 온라인 칭찬에 따르면 일부 사람들은 LATTE3D 결과의 품질에 그다지 깊은 인상을 받지 못했습니다. 그러나 새 모델은 특히 속도 측면에서 큰 발전을 이루었습니다.

Nvidia는 연구 시연에 사용된 NVIDIA RTX A6000과 같은 단일 GPU에서 추론을 실행할 때 거의 즉시 3D 모양을 생성한다고 말합니다. 즉, 처음부터 디자인을 시작하거나 3D 자산 라이브러리를 검색하는 제작자는 LATTE3D를 사용하여 아이디어가 떠오르는 즉시 상세한 개체를 만들 수 있습니다.

양식은 각 텍스트 프롬프트를 기반으로 여러 3D 모양 옵션을 생성합니다. 원하는 개체는 더 높은 품질을 위해 최적화된 다음 다음과 같은 그래픽 소프트웨어 응용 프로그램이나 플랫폼으로 내보낼 수 있습니다. 엔비디아 옴니버스이를 통해 글로벌 환경에 대한 설명(OpenUSD)– 3D 워크플로우 및 애플리케이션.

AI 연구 담당 부사장인 산자 피들러(Sanja Fiedler)는 “1년 전만 해도 AI 모델이 이 정도 품질의 3D 이미지를 만드는 데 한 시간이 걸렸습니다. 현재의 기술 수준은 약 10~12초입니다.”라고 말했습니다. 결과를 훨씬 빠르게 생성하여 업계 전반의 창작자가 거의 실시간으로 3D 텍스트를 생성할 수 있습니다.

Nvidia LATTE3D AI 모델로 만든 3D 개 (이미지 출처: 엔비디아)

LATTE3D는 Nvidia의 토론토에 있는 AI Lab 팀에 의해 개발되었으며 ChatGPT를 사용하여 생성된 텍스트 프롬프트를 사용하여 훈련되어 사용자가 주어진 3D 개체를 설명하기 위해 생각해 낼 수 있는 다양한 문구를 처리하는 모델의 능력을 향상시켰습니다. 연구원들은 동물과 일상 사물이라는 두 가지 특정 데이터 세트에 대해 LATTE3D를 교육했지만 동일한 아키텍처를 사용하여 다른 데이터 유형에 대해 AI를 교육할 수 있습니다. 이는 연구 프로젝트로만 남아 있으며 공개적으로 사용할 수 없습니다.

AI 제작자 Bilawal Sidhu를 썼습니다. 엑스: “이것은 엄청난 도약입니다. 2022년경의 DreamFusion은 느리고 품질이 낮았지만 이러한 생성적 3D 혁명을 시작했습니다. ATT3D(Autized Object Texture to 3D)와 같은 노력은 품질을 희생하면서 속도를 추구했습니다. 이제 고품질 LATTE3D로 1초 이내에 처리됩니다! 즉, 3D 세계를 빠르게 복제하고 텍스트나 이미지로 채워 3D로 바꿀 수 있습니다.

3D는 비디오와 함께 AI 이미지 생성의 차세대 개척지입니다. 이번 주 Adobe는 최초의 Firefly AI 기반 도구를 Substance 3D에 통합한다고 발표했습니다.

Seung Jae-Hwa

“재화는 뛰어난 분석 능력을 가진 분석가로, 다양한 주제에 대한 깊은 통찰력을 가지고 있습니다. 그는 창조적인 아이디어를 바탕으로 여러 프로젝트를 주도해왔으며, 좀비 문화에 특별한 애정을 갖고 있습니다. 여행을 사랑하며, 대중 문화에 대한 그의 지식은 깊고 폭넓습니다. 알코올에 대한 그의 취향도 독특합니다.”