ChatGPT는 AI 산업에 닭의 피를 주입했습니다. 한때 상상할 수 없었던 모든 것이 오늘날 기본적인 실천이 되었습니다.
계속 발전하고 있는 Text-to-3D는 Diffusion(image), GPT(text)에 이어 AIGC 분야의 차세대 핫스팟으로 평가받으며 전례 없는 주목을 받고 있습니다.
아니요, ChatAvatar라는 제품이 로우키 퍼블릭 베타에 투입됐고, 단숨에 70만 건이 넘는 조회수와 주목을 받으며 화제가 됐습니다(Spaces of the Week).
ΔChatAvatar는 폭넓은 관심을 받고 있는 AI가 생성한 단일 시점/다면 시점 원본 그림에서 3D 스타일화된 캐릭터를 생성하는 Image to 3D 기술도 지원합니다
현재 생성된 3D 모델 베타 버전은 PBR 자료를 로컬로 다운로드하여 직접 연결할 수 있습니다. 잘 작동할 뿐만 아니라 더 중요한 것은 무료로 플레이할 수 있다는 것입니다. 일부 네티즌들은
너무 멋지다. 나만의 디지털 트윈을 쉽게 생성할 수 있는 것 같다고 감탄했다.
이는 많은 네티즌들의 관심을 끌었고 그들의 아이디어를 제공했습니다. 어떤 사람들은 이 제품을 ControlNet과 결합하여 효과가 너무 섬세하고 현실적이어서 예상치 못한 결과를 얻었습니다.
사용 임계값이 거의 0에 가까운 이 Text-to-3D 도구는 ChatAvatar라고 하며 국내 AI 스타트업 Yingmo Technology Team에서 만들었습니다.
스타 이름이나 원하는 캐릭터의 모습 등 간단한 텍스트를 통해 영화 수준의 3D 초현실적인 인물을 생성할 수 있는 세계 최초의 제작 가능한 텍스트를 3D 제품으로 이해합니다. 인적 자산.
실제처럼 보이는 얼굴, 심지어 자신의 얼굴을 만드는 데에도 효율성이 매우 높습니다.
향후에는 생성 분야도 다른 입체 자산으로 확장될 예정입니다.
그리고 모델에는 일반 토폴로지, 4k 해상도의 PBR 소재, 바인딩이 있으며 Unity, Unreal Engine, Maya와 같은 제작 엔진의 제작 파이프라인에 직접 연결할 수 있습니다.
그렇다면 ChatAvatar는 어떤 3D 생성 도구일까요? 그 뒤에는 어떤 기술이 사용됩니까?
ChatAvatar의 게임 플레이를 직접 경험해 보시면 정말 한계가 없다고 할 수 있습니다.
구체적으로, 공식 웹사이트에서 ChatBot에 대한 요구 사항을 대화 형식으로 현지 언어로 설명하기만 하면 되며, 요청에 따라 3D 얼굴을 생성하고 모델에 맞는 실제 "인간 피부"로 덮을 수 있습니다. 전체 대화 과정에서 ChatBot은 사용자의 요구에 따라
안내하고 필요한 모델에 대한 사용자의 생각을 최대한 자세히 이해합니다.
경험 중에 생성하려는 3D 이미지를 ChatBot에 설명했습니다.
왼쪽의 생성 버튼을 클릭하면 평균 10초 이내에 9가지 유형의 이미지가 생성됩니다. 다양한 3D 얼굴의 초기 프로토타입에 대한 설명이 화면에 표시됩니다.
그 중 하나를 마음대로 선택한 후, 선택에 따라 모델과 재료가 계속 최적화됩니다. 마지막으로 피부를 덮은 후의 모델 렌더링 결과가 나타나고, 다양한 빛과 그림자에서의 렌더링 효과가 표시됩니다. 이러한 렌더링은 브라우저에서 실시간으로 완료됩니다.
마우스로 드래그하고 머리를 회전하고 확대하여 모공과 여드름을 더 자세히 볼 수도 있습니다.
사용자가 프롬프트 엔지니어링 전문가라면 왼쪽 상자에 프롬프트를 직접 입력하여 생성을 완료할 수도 있다는 점을 언급할 가치가 있습니다.
드디어 원클릭 다운로드로 제작 엔진에 직접 연결하여 구동할 수 있는 3D 디지털 헤드 에셋을 얻을 수 있습니다.
베타 버전에서는 아직 헤어스타일 기능이 출시되지 않았지만 전반적으로 최종 생성된 3D 디지털 인간 자산과 설명 콘텐츠는 이미 높은 일치도를 가지고 있습니다.
공식 웹사이트에는 다양한 인종, 다양한 피부색, 다양한 연령, 기쁨과 슬픔, 아름다움, 추함, 뚱뚱함과 마른 모습, 모든 종류의 외모 등 ChatAvatar 사용자가 생성한 많은 자산도 표시됩니다.
3D 디지털 인간 자산 생성을 위한 ChatAvatar 제품의 주요 특징을 요약해 보겠습니다.
우선 사용하기 쉽습니다 둘째, 세대 범위가 넓고 얼굴 특징을 변경할 수 있으며 또한 다음과 같이 마스크, 문신 등의 얼굴 특징을 생성할 수 있습니다.
공식 홍보 영상에 따르면 ChatAvatar는 영화 및 TV 속 캐릭터와 같이 인간 범주를 넘어서는 캐릭터를 더욱 생성할 수 있습니다. Avatar와 같은 작품:
가장 중요한 것은 ChatAvatar
가 3D 모델과 기존 렌더링 소프트웨어간의 호환성 문제를 해결한다는 것입니다. 즉, ChatAvatar로 생성된 3D 자산을 게임, 영화, TV 제작 프로세스에 직접 통합할 수 있습니다.
물론 ChatAvatar는 공식적으로 산업 프로세스에 연결되기 전에 이미 수천 명의 아티스트와 전문 아티스트를 끌어 모아 1차 공개 베타에 참여했으며 트위터에서 관련 주제는 거의 백만 건에 가까운 조회수와 관심을 받았습니다.
모든 트윗의 조회수는 50,000회를 넘을 수 있습니다.
아인슈타인의 3D 얼굴을 보세요. 정말 그와 닮았다고 말하지 않을 사람이 있을까요?
ControlNet과 결합하면 생성되는 효과는 SLR 사진과 동일합니다.
많은 사용자가 이를 경험한 후 이 Text-to-3D 도구를 대규모로 적용하는 것을 상상하기 시작했습니다. 게임, 영화, TV 산업적 적용을 기다리고 있습니다.
사용자 피드백은 ChatAvatar 팀이 신속하게 반복하고 업데이트하여 보다 완전하고 수요 기반 기능을 적시에 제공하기 위한 데이터 플라이휠을 형성하는 중요한 기반이 될 것으로 이해됩니다.
실제로 3D 산업에 종사했던 이전 디자이너나 기업의 경우 대부분의 AI text-to-3D 적용이 효과적이지 않지만 실제로 산업 디자인 프로세스에 구현하는 데는 여전히 많은 어려움이 있습니다.
ChatAvatar가 이번에 이렇게 인기를 끌 수 있었던 기술적인 이유는 무엇인가요?
업계 요구 사항을 충족하는 3D 자산을 생성하는 데 있어 어려운 점은 무엇입니까?
가장 큰 어려움은 AI가 생성한 것을
표준의 3D 자산에 대한 업계 요구 사항을 충족하도록 만드는 것입니다. 여기서
산업 표준을 어떻게 이해하시나요? 전문적인 3D 아트 디자인의 관점에서 보면 품질, 제어 가능성 및 생성 속도라는 세 가지 측면이 있습니다.
첫번째는 품질입니다. 특히 시각 효과를 강조하는 영화, TV 및 게임 산업의 경우 파이프라인 요구 사항을 충족하는 3D 자산을 생성하기 위해 토폴로지 규칙성 및 텍스처 매핑 정확도와 같은 "업계에서 암묵적인 규칙"이 AI 제품에 대해 취해야 할 첫 번째 단계입니다. 동음.
토폴로지 구조의 규칙성을 예로 들면 이는 본질적으로 3D 자산 라우팅의 합리성을 나타냅니다.
3D 자산의 경우 토폴로지의 규칙성은 개체의 애니메이션 효과, 수정 처리 효율성 및 텍스처 그리기 속도에 직접적인 영향을 미치는 경우가 많습니다.
업계 3D 아트 디자인 도입에 따르면 수동 리토폴로지에 소요되는 시간 비용이 그보다 높은 경우가 많습니다. 3D 모델 자체를 여러 배로 더 높게 만드는 것입니다. 즉, AI 모델로 생성된 3D 자산이 아무리 멋지더라도 생성된 토폴로지 규칙성이 요구 사항을 충족하지 못하면 근본적으로 비용을 줄일 수 없다는 뜻이다. 텍스처 정확도는 말할 것도 없습니다.
ΔShadow Eye Technology의 ChatAvatar 프로젝트는 이전 작업에 비해 생성 품질, 속도 및 표준 호환성을 크게 향상시켰습니다.
현재 게임 및 영화 및 TV 산업에서 일반적으로 요구되는 PBR 텍스처를 예로 들어 보겠습니다. 반사율 맵, 노멀 맵 등 일련의 맵은 2D 이미지 PSD 파일의 "레이어"에 해당하며 3D 자산 파이프라인 제작에 없어서는 안될 조건 중 하나입니다.
그러나 현재 AI로 생성된 3D 자산은 '전체'인 경우가 많으며, 필요에 따라 산업 환경에 맞는 PBR 텍스처 효과를 독립적으로 생성할 수 있는 경우는 거의 없습니다.
두 번째는 제어 가능성입니다. 생성된 콘텐츠를 보다 "제어 가능"하게 만드는 방법은 CG 업계가 이 기술에 대해 제시하는 또 다른 주요 요구 사항입니다.
잘 알려진 2D 산업을 예로 들어보겠습니다. ControlNet이 등장하기 전에 2D AIGC 산업은 "반암흑기" 상태였습니다.
즉, AI는 특정 범주의 개체에 대한 이미지를 생성할 수 있지만 특정 자세의 개체를 생성할 수는 없습니다. 생성 효과는 전적으로 신속한 엔지니어링과 "형이상학"에 달려 있습니다.
ControlNet 등장 이후 2D AI 이미지 생성의 제어 가능성은 비약적으로 향상되었습니다. 그러나 3D AI의 경우 해당 효과가 있는 자산을 생성하려면 여전히 전문적인 신속한 엔지니어링에 크게 의존합니다.
마지막은 세대속도입니다. 3D 아트 디자인과 비교할 때 AI 생성의 장점은 속도입니다. 그러나 AI 렌더링의 속도와 효과가 수동 렌더링의 속도와 효과를 따라올 수 없다면 이 기술은 여전히 업계에 이점을 가져올 수 없습니다.
현재 AI 기술에서 큰 인기를 얻고 있는 NeRF를 예로 들어보세요. 산업화는 속도와 품질의 호환성 문제에 직면해 있습니다.
세대 품질이 높을 때 NeRF 기반의 3D 생성은 시간이 오래 걸리는 경우가 많지만, 속도를 추구한다면 NeRF에서 생성된 3D 자산도 전혀 산업용으로 활용되지 않을 것입니다.
하지만 이 문제가 해결되더라도 NeRF를 기존 CG 업계의 주류 엔진과 정확도를 잃지 않고 호환시킬 수 있는 방법은 여전히 큰 문제입니다.
위의 산업 표준화 프로세스에서 대부분의 AI 텍스트를 3D 애플리케이션으로 구현하는 데 두 가지 주요 병목 현상이 있다는 것을 어렵지 않게 찾을 수 있습니다.
첫 번째는 프롬프트 프로젝트를 수동으로 완료해야 한다는 것입니다. 이는 AI가 아닌 전문가나 AI를 이해하지 못하는 사람들에게는 디자이너에게 충분히 사용자 친화적이지 않습니다. 또 다른 하나는 생성된 3D 자산이 업계 표준을 충족하지 못하고 좋아 보여도 사용할 수 없다는 것입니다.
이 두 가지 사항에 대해 ChatAvatar는 두 가지 구체적이고 효과적인 솔루션을 제공했습니다.
ChatAvatar는 수동 입력 프롬프트 엔지니어링 외에 두 번째 경로를 실현하며, "파티 A 모드"를 통해 직접적인 대화를 통해 요구 사항을 설명하는 일반 사람들에게 더 적합한 지름길이기도 합니다.
팀 공식 트위터에는 이 기능을 구현하기 위해 ChatAvatar가 GPT 기능을 기반으로 대화 설명을 세로 기능으로 변환하는 방법을 개발했다고 밝혔습니다.
디자이너는 GPT와 계속 채팅하고 원하는 "느낌"을 설명하기만 하면 됩니다.
GPT는 자동으로 프롬프트 프로젝트를 완료하고 결과를 AI에 보낼 수 있습니다.
즉, ControlNet의 경우 2D 산업의 "게임 체인저"라면, 3D 산업의 경우 텍스트를 3D로 변환할 수 있는 ChatAvatar는 업계의 게임 체인저에 해당합니다.
한편, 더 중요한 것은 ChatAvatar가 CG 파이프라인과 완벽하게 호환된다는 것입니다. 즉, 생성된 자산은 토폴로지, 제어 가능성 및 속도 측면에서 업계 요구 사항을 충족합니다.
이는 3D 자산을 생성한 후 다운로드한 콘텐츠를 다양한 후반 작업 소프트웨어로 직접 가져와서 2차 편집을 더욱 쉽게 제어할 수 있음을 의미할 뿐만 아니라 동시에 생성된 모델과 고정밀 재료 맵도 가능합니다. 이후 렌더링에서도 매우 사실적인 렌더링 효과를 얻을 수 있습니다.
이러한 효과를 달성하기 위해 팀은 진보적인 3D 생성 프레임워크인 ChatAvatar용 DreamFace를 개발했습니다.
핵심은 모델 학습에 사용되는 기본 데이터에 있습니다. 이는 Yingmo Technology가 "돔 라이트"를 기반으로 수집한 세계 최초의 대규모, 고정밀, 다중 표현 고정밀 얼굴 데이터 세트입니다. 필드"
.이 데이터 세트를 기반으로 DreamFace는 제품 수준 3D 자산
생성을 효율적으로 완료할 수 있습니다. 즉, 생성된 자산에는 일반적인 토폴로지, 재료 및 바인딩이 있습니다.DreamFace에는 주로 기하학 생성, 물리 기반 재료 확산 및 애니메이션 기능 생성의 세 가지 모듈이 포함되어 있습니다.
DreamFace는 외부 3D 데이터베이스를 도입하여 CG 프로세스를 준수하는 자산을 직접 출력할 수 있습니다.
Δ생성된 자산 중심 렌더링의 효과
위의 두 가지 주요 기술적 병목 현상에 대한 솔루션은 본질적으로 AIGC 하에서 "세대"가 "검색"을 대체하는 시대의 추세를 더욱 가속화했습니다. 홍수——Shadow Eye 팀은 '세대'가 새로운 세대가 디지털 자산을 획득하는 방식이 될 것이라고 믿습니다. 이전에는 필요에 맞는 사진이나 자산을 찾아야 할 때 일반적으로 검색 엔진을 사용하여 쿼리했습니다. ChatAvatar 프로젝트 홈페이지에 표시된 거대한 "검색 상자"와 깔끔한 자산 카드는 검색 엔진처럼 보이지만 실제로는 검색과는 완전히 다른 자산 검색 방법입니다.
ΔChatAvatar 프로젝트 홈페이지
Yingmu Technology CTO Zhang Qixuan은 다음과 같이 소개했습니다. 과거에는 일러스트레이션이 필요하면 여러 라이브러리에서 반복적으로 검색하거나 Photoshop, 핸드 페인팅을 통해 합성해야 할 수도 있었습니다. 등 결과를 얻는 복잡한 방법입니다. 하지만 Stable Diffusion과 같은 기술이 등장한 이후에는 텍스트를 통해 원하는 이미지를 설명하기만 하면 요구 사항에 맞는 결과를 직접 생성할 수 있습니다. 이것은 기존 자산 라이브러리에 큰 영향을 미칩니다. ChatAvatar의 목표는 기존의 검색 기반 3D 자산 라이브러리를 3D 생성으로 대체하는 것입니다. AIGC 분야의 차세대 최첨단 핫스팟ChatGPT가 일석이조의 물결을 일으키고 있습니다. AI 2.0 시대에 접어들면서 사람들의 관심도 이미지, 동영상, 3D 및 기타 정보. 3D 제너레이션 분야의 경우 영화, TV, 게임 산업을 막론하고 3D 콘텐츠 제작 및 소비 시장은 이미 충분히 크지만 제작 수준의 기술적 어려움으로 인해 제약을 받고 있습니다. 예를 들어 텍스트 분야에서 큰 인기를 얻고 있는 Transformer는 3D 생성 분야에서는 상대적으로 활용이 제한적입니다. 지난해 여름Venture Drawing
분야가 확산 모델로 성과를 거두자 사람들은Text Generation 3D에서도 이와 같은 놀라운 성능을 기대하기 시작했습니다. 제너레이티브 AI의 3D 창작 기술이 성숙해지면 VR, 영상 등 콘텐츠 제작이 본격화될 것이다.
Δ확산 모델이 만들어낸 "반 고흐 스타일 사진" Midjourney5.1
실제로 거대 기술 기업과 스타트업 기업 모두 Text-to-3D 방향으로 비밀리에 노력하고 있는 것이 사실입니다. . 구글은 지난해 9월 텍스트 프롬프트를 기반으로 3D 모델을 생성하는 프리암퓨전(FreamFusion)을 출시하면서 3D 훈련 데이터나 이미지 확산 모델 수정이 필요하지 않다고 주장했다. 이에 따라 Meta는 한 번의 클릭으로 텍스트에서 비디오를 생성할 수 있는 Make-A-Video 모델도 출시했습니다. 이후 Text-to-3D AI 모델팀에는 NVIDIA Magic3D, OpenAI의 최신 오픈소스 프로젝트 Shap-E 등도 포함되어 있습니다. 올해 8월에 개최되는 최고의 컴퓨터 그래픽 컨퍼런스인 SIGGRAPH 2023에서도 많은 논문이 발표되었습니다. . 이 문서는 Text-to-3D와 관련이 있습니다. 텍스트 기반 프로그레시브 3D 생성 프레임워크인 DreamFace에 대한 Yingmo Technology의 논문도 그중 하나입니다. ChatAvatar는 지금까지 3D 디지털 인간 자산에 초점을 맞춘 가장 생성적인 모델 제품이기도 합니다.그 뒤에 있는 AI 스타트업 회사 Yingmu Technology는 2020년 상하이 과학기술대학교 MARS 연구소에서 인큐베이션되었습니다. 설립 후 Qiji Chuangtan과 Sequoia Seed로부터 두 차례 투자를 받았습니다.
이 회사는 컴퓨터 그래픽과 생성 AI의 연구 및 제품화에 중점을 두고 있습니다. AIGC가 큰 파장을 일으키기 전인 2021년에 회사는 이미 중국 최초의 AIGC ToC 페인팅 애플리케이션인 Wand를 출시했으며 해당 제품은 한때 AppStore 파티션 1위를 차지했습니다.
그리고 이미 업계에 잘 알려진 이 진취적인 팀의 평균 연령은 고작 25세입니다.
ChatAvatar는 디지털 피플에 대한 최초의 상용화 시나리오를 구체적으로 정한 후 AIGC를 활용하여 이 방향으로의 최신 진전입니다. 새롭게 출시된 ChatAvatar는 호환성, 완성도, 정확성 등 제품 효과 측면에서 Shadow Eye 팀의 기대치를 뛰어 넘었습니다. 하지만 우디의 말에 따르면 여기까지 오기까지의 과정은 "매우 당황스러웠다". 가장 큰 이유는 바로 '사람 부족'입니다. 현재 Shadow Eye는 다중 카테고리 3D 생성 기술에서 진전을 이루었으며 다음 단계는 "3D 생성 대형 모델"을 출시하는 것입니다.Δ잉모테크놀로지는 5월 최초의 멀티모달 크로스 플랫폼 3D 검색 엔진 Rodin을 출시하고 Sketchfab과 같은 다양한 3D 자산 플랫폼을 오픈하며 텍스트와 이미지를 통한 3D 검색을 지원할 예정입니다. 검색 3D를 검색하거나 3D로 3D를 검색할 수도 있습니다. 검색 엔진은 Rodin의 기본 형태일 뿐이며 Shadow Eye는 Rodin을 대규모 3D 생성 모델로 구축합니다. 계속해서 발전하려면 생성 AI를 수용하는 더 많은 엔지니어링 팀, 기술 아티스트, 제품 인재가 팀에 합류해야 합니다. R&D를 기반으로 하는 팀으로서 이러한 인재는 여전히 부족합니다. "사람은 모든 것의 척도입니다." Wu Di는 "3D 분야의 혁신적인 개발에 참여하고 공동으로 추진하려면 같은 생각을 가진 사람들이 더 많이 필요합니다."라고 말했습니다. ChatAvatar의 기반이 되는 기술이 구축되었음을 알 수 있습니다. AI 스타트업 기업의 지속적인 혁신을 드러내며, 중소기업부터 대기업까지 인재를 향한 기업의 열망은 AIGC의 물결 속에서 모든 부문이 물 밖으로 나오려는 열망을 드러낸다. 생성 AI를 수용하고 Text-to-3D 분야의 게임 체인저가 되시겠습니까?
위 내용은 카드 한장으로 30초만에 가상 3D 아내를 만나보세요! Text to 3D는 Maya, Unity 및 기타 제작 도구와 원활하게 연결되어 명확한 모공 세부 정보를 갖춘 고정밀 디지털 휴먼을 생성합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!