생성 AI로 가득한 디지털 휴먼을 열어보세요.
9월 23일 저녁, 항저우 아시안 게임 개막식에서 주성화의 조명은 수억 명의 온라인 디지털 성화봉송 주자들이 첸탕강에 모여 디지털 성화를 이루는 '작은 불꽃'을 보여주었습니다. 인간의 이미지. 이어 디지털휴먼 성화봉송 주자와 현장의 6번째 성화봉송 주자가 함께 성화대에 올라가 함께 주성화를 점화했습니다
개회식의 핵심 아이디어로 디지털-실제 상호 연결된 성화 점화 포맷은 화제가 되면서 사람들의 관심을 끌었습니다. 재작성된 내용: 개막식의 핵심 아이디어로 디지털 현실 인터넷의 성화 조명 방식이 열띤 토론을 불러일으키며 사람들의 관심을 끌었습니다.
디지털 사람들의 점화는 수억 명의 사람들이 참여한 전례 없는 이니셔티브입니다. 많은 사람들이 참여하는 첨단 기술입니다. 가장 중요한 문제 중 하나는 디지털 사람들을 어떻게 "움직이게" 만들 것인가이다. 생성 인공지능과 대규모 모델의 급속한 발전으로 디지털 휴먼 연구에 더욱 새로운 변화가 나타나고 있음을 분명히 알 수 있습니다
10월 초에 개최될 글로벌 컴퓨터 비전 컨퍼런스 ICCV 2023에서 우리는 다음과 같은 점에 주목했습니다. 3D 디지털 인간 모션 생성에 관한 연구가 컨퍼런스에 포함되었습니다. 관련 논문은 "확산 확률 모델을 사용한 인간-객체 상호 작용의 계층적 생성"이라는 제목으로 절강대학교와 Ant Group이 공동으로 출판했습니다.
서문에 따르면, 이 연구는 디지털 휴먼이 장거리의 복잡한 움직임을 합성하는 문제를 어느 정도 해결하고, 독창적인 모델이나 경로 계획으로는 달성할 수 없는 효과를 얻을 수 있다고 합니다. 디지털 휴먼 드라이브와 관련된 기술은 아시안 게임에서 1억 명의 디지털 휴먼을 온라인으로 전달하는 데에도 사용되었습니다.
디지털 휴먼을 움직이게 하기 위한 제너레이티브 AI 드라이브
주어진 3D 장면에서 3D를 합성해야 하는 경우가 많습니다. 인간의 움직임을 통해 가상 인간은 자연스럽게 장면 주위를 돌아다니며 객체와 상호 작용할 수 있으며, 이는 AR/VR, 영화 제작 및 비디오 게임에 다양한 응용 프로그램이 있는 효과입니다.
여기서 전통적인 캐릭터 제어 모션 생성 방법은 사용자의 제어 신호에 따라 단기 또는 반복 모션을 생성하는 것을 목표로 하는 반면, 새로운 연구는 시작 위치와 대상 개체 모델을 고려하여 장기적인 모션을 생성하는 데 중점을 둡니다. 콘텐츠.
이 아이디어는 더 효과적이지만 분명히 더 어렵습니다. 첫째, 인간과 사물의 상호작용은 일관적이어야 하며, 이를 위해서는 인간과 사물 간의 장거리 상호작용을 모델링할 수 있는 능력이 필요합니다. 둘째, 콘텐츠 생성의 맥락에서 생성 모델은 실제 사람들이 대상 개체에 접근하고 상호 작용하는 방법이 다양하기 때문에 다양한 크기의 동작을 합성할 수 있어야 합니다.
디지털 휴먼 액션을 생성하는 방법에 있어서 기존 합성 방법은 크게 온라인 생성과 오프라인 생성으로 나눌 수 있습니다. 대부분의 온라인 방법은 캐릭터의 실시간 제어에 중점을 둡니다. 대상 객체가 주어지면 일반적으로 자동 회귀 모델을 사용하여 피드백 예측을 통해 미래 모션을 주기적으로 생성합니다. 이 방법은 비디오 게임과 같은 대화형 시나리오에서 널리 사용되었지만 장기 생성에는 여전히 품질이 만족스럽지 않습니다.
모션의 품질을 향상시키기 위해 최근 일부 오프라인 방법에서는 다단계 프레임워크를 채택하여 먼저 궤적을 생성한 다음 모션을 합성하기 시작했습니다. 이 전략은 합리적인 경로를 생성할 수 있지만 경로의 다양성은 제한적입니다.
이 새로운 연구에서 저자는 사람과 사물 간의 상호 작용을 장기적이고 다양한 방식으로 종합하기 위한 새로운 오프라인 방법을 제안합니다. 이 방법의 혁신은 계층적 생성 전략에 있습니다. 첫째, 전략은 일련의 이정표를 예측한 다음 이러한 이정표 사이에서 인간의 행동을 생성합니다
구체적으로, 시작 위치와 대상 개체가 주어지면 저자는 모션 궤적을 따라 노드 집합을 합성하는 마일스톤 생성 모듈을 설계했습니다. 각 마일스톤은 로컬 포즈를 인코딩하고 인간 이동 중 전환 지점을 나타냅니다. 이러한 이정표를 기반으로 알고리즘은 모션 생성 모듈을 사용하여 완전한 모션 시퀀스를 생성합니다. 이러한 마일스톤의 존재 덕분에 우리는 여러 개의 짧은 모션 시퀀스를 합성하여 긴 시퀀스 생성을 단순화할 수 있습니다.
각 이정표의 로컬 포즈는 시간 일관성 있는 결과를 생성하기 위해 전역 종속성을 고려하는 변환기 모델에 의해 생성되어 일관성 있는 동작을 더욱 촉진합니다.
계층적 생성 프레임워크 외에도 연구원들은 합성 인간 객체에 확산 모델을 추가로 활용했습니다. 상호 작용. 일부 이전 모션 합성 확산 모델은 변환기와 잡음 제거 확산 확률 모델(DDPM)을 결합했습니다.
긴 모션 시퀀스로 인해 이를 새로운 설정에 직접 적용하려면 많은 계산이 필요하고 GPU 메모리 폭발이 발생할 수 있다는 점을 언급할 가치가 있습니다. 새로운 계층적 생성 프레임워크는 장기 생성을 여러 개의 짧은 시퀀스의 합성으로 변환하기 때문에 필요한 GPU 메모리는 단기 모션 생성과 동일한 수준으로 감소됩니다.
따라서 연구자들은 Transformer DDPM을 효과적으로 사용하여 장기 모션 시퀀스를 합성함으로써 생성 품질을 향상시킬 수 있습니다.
이 목적을 달성하기 위해 연구자들은 아래 그림과 같이 계층적 생성 프레임워크를 설계했습니다
먼저, 이들은 GoalNet을 사용하여 개체에 대한 상호 작용 목표를 예측한 다음 대상 포즈를 생성하여 인간과 개체의 상호 작용을 명시적으로 모델링합니다. 다음으로 마일스톤 생성 모듈을 사용하여 마일스톤의 길이를 추정함으로써 시작점부터 목표까지의 마일스톤 궤적을 생성하고 마일스톤 포즈를 배치합니다
이런 식으로 장거리 모션 생성은 다음과 같이 분해됩니다. 다중 단거리 모션 생성의 조합. 마지막으로 저자는 마일스톤 간의 궤적을 합성하고 작업을 채우는 모션 생성 모듈을 설계했습니다.
인공지능(AI) 포즈 생성
연구자들은 사람이 사물과 상호작용하면서 정지해 있는 자세를 목표자세라고 합니다. 이전에는 대부분의 방법에서 cVAE 모델을 사용하여 인간의 포즈를 생성했지만 연구자들은 자체 연구에서 이 방법의 성능이 좋지 않다는 것을 발견했습니다.
이 문제를 해결하기 위해 VQ-VAE 모델을 채택하여 데이터 분포를 모델링했습니다. 이 모델은 이산 표현을 활용하여 데이터를 제한된 포인트 세트로 클러스터링합니다. 또한, 관찰에 따르면 다양한 인간 포즈가 비슷한 특성을 가질 수 있습니다. 예를 들어, 사람이 앉아 있을 때 손의 움직임은 다를 수 있지만 다리 위치는 동일할 수 있습니다. 따라서 관절을 서로 겹치지 않는 L(L = 5) 그룹으로 나누었습니다
그림 3과 같이 대상 포즈는 독립적인 관절 그룹으로 구분됩니다
시작 포즈와 대상 포즈에 따라, 우리는 알고리즘이 이정표 궤적을 생성하고 이정표에서 로컬 포즈를 합성하도록 할 수 있습니다. 모션 데이터의 길이는 알 수 없으며 임의적일 수 있으므로(예를 들어 사람이 빠르게 의자로 걸어가서 앉을 수도 있고, 천천히 의자 주위를 걷다가 앉을 수도 있음) 길이를 예측하는 것이 필요합니다. N으로 표시되는 이정표의 . 그런 다음 N개의 랜드마크 포인트가 합성되고 로컬 포즈가 이 포인트에 배치됩니다.
마지막 단계는 액션 생성입니다. 연구원들이 사용하는 방법은 프레임별로 액션을 예측하는 것이 아니라 생성된 마일스톤을 기반으로 전체 시퀀스를 계층적으로 합성하는 것입니다. 먼저 궤적을 생성한 다음 동작을 합성합니다. 특히, 두 개의 연속 이정표 내에서 먼저 궤도를 완료합니다. 그런 다음, 연속적인 이정표 제스처에 따라 움직임을 채워보세요. 이 두 단계는 각각 두 개의 Transformer DDPM을 사용하여 완료됩니다.
연구원들은 목표 출력을 생성하기 위해 각 단계마다 DDPM의 조건을 신중하게 설계합니다
다시 작성된 내용은 다음과 같습니다: 다른 제품을 선도하는 효과
연구원들은 SAMP 데이터 세트에 대한 다양한 방법의 결과를 비교했습니다. 논문에서 제안한 방법은 FD가 낮고, 사용자 연구 점수가 높으며, APD가 높은 것을 알 수 있다. 또한 그들의 방법은 SAMP보다 더 높은 궤적 다양성을 달성합니다.
이 새로운 방법은 복잡한 장면에서도 만족스러운 결과를 얻을 수 있습니다. 이 방법으로 생성된 침투 프레임의 비율은 3.8%이고 SAMP의 비율은 4.9%입니다
SAMP, COUCH 및 기타 데이터 세트에서 연구에서 언급된 방법은 기본 방법보다 더 나은 결과를 얻었습니다
풀링크 레이아웃 완성
디지털 휴먼은 음성, 의미, 비전 등의 멀티모달 기술이 통합된 복합체입니다. 생성적 AI가 최근 획기적인 발전을 이룬 반면, 디지털 휴먼 분야는 이전에 수동 작업이 필요했던 모델링, 생성적 상호 작용, 렌더링 및 기타 링크가 이제 완전히 인공화되고 있습니다.
엔지니어들이 계속해서 최적화함에 따라 이 경험은 모바일 측면의 기술도 점점 좋아지고 있습니다. 최근 성화봉송 행사를 마친 것이 좋은 예입니다. 성화봉송 주자가 되고 싶다면 알리페이 앱의 미니 프로그램만 클릭하면 됩니다.
개막식 프로젝트의 원활한 진행을 위해 앤트그룹의 엔지니어들은 수백 가지의 다양한 휴대폰 모델에 대해 10만 번 이상의 테스트를 실시하고, 20만 라인 이상의 코드를 입력했으며, 자체 개발한 코드를 사용했다고 합니다. Web3D 인터랙티브 엔진 Galacean, AI 디지털 피플, 클라우드 서비스, 블록체인 및 기타 기술이 결합되어 누구나 디지털 성화봉송 주자가 되어 성화봉송에 참여할 수 있습니다. 아시안 게임 디지털 선구자 플랫폼은 수억 명의 사용자에게 도달할 수 있으며 일반 스마트폰 장치의 97%를 지원합니다.
디지털 성화봉송 주자들이 현실적으로 참여할 수 있도록 Ant의 기술팀은 58개의 얼굴 핀칭 컨트롤러를 개발했습니다. 얼굴 인식과 AI 알고리즘을 활용해 각 개인의 얼굴 특징을 기반으로 디지털 성화봉송 주자의 얼굴을 매핑할 수 있습니다. 동시에 사용자는 얼굴 모양, 헤어스타일, 코, 입, 눈썹 및 기타 기능을 자유롭게 조정하여 자유로운 복장을 구현할 수도 있습니다. 이 기술은 2조 가지의 다양한 디지털 이미지 선택을 제공할 수 있습니다
또한 개회식 조명식이 끝난 후 각 디지털 성화봉송 주자들은 각 디지털 성화봉송 주자의 고유한 이미지가 그려진 전용 디지털 점화 인증서를 받을 수 있으며 이 인증서는 저장됩니다. 분산 기술을 통해 블록체인에서
연구 논문 내용과 아시안게임 프로젝트 내용을 보면 그 이면에는 완전한 디지털 휴먼 테크놀로지 시스템이 있다는 것을 쉽게 알 수 있습니다. 앤트그룹은 디지털 휴먼 기술을 적극적으로 탐구하고 있으며, 디지털 휴먼 풀링크 핵심 기술에 대한 자체 연구 레이아웃을 완성한 것으로 파악된다.
시장에 나와 있는 대부분의 회사와 달리 앤트그룹은 디지털 휴먼 기술을 자체 개발하고 생성 AI와 결합하는 개발 방향을 선택합니다. 기술 배치 측면에서는 디지털 휴먼 모델링, 렌더링, 주행, 인터랙션의 전체 라이프사이클을 포괄합니다. AIGC와 대형 모델을 결합하면 디지털 휴먼의 풀링크 제작 비용이 크게 절감됩니다. 현재는 2D, 3D 디지털 피플을 지원할 수 있으며, 방송형, 인터랙티브형 등 다양한 솔루션을 제공하고 있다.
공개 정보에 따르면 Ant 디지털 휴먼 플랫폼은 현재 4가지 기술적 장점과 기능을 가지고 있다고 요약할 수 있습니다.
아시안게임 개막식을 앞두고 중국정보통신기술원은 최신 디지털 휴먼 표준 준수 검증 결과를 발표했다. 앤트그룹의 링징 디지털 휴먼 플랫폼이 업계 최초로 금융 디지털 휴먼 인증을 통과한 제품이 됐다. 평가를 통해 최고 등급인 '뛰어난 수준(L4)'을 받았습니다.
Ant Digital People Platform은 아시안 게임 외에도 Ant Group의 Alipay, 디지털 금융, 대정부 업무, Wufu 및 기타 비즈니스도 지원하며 올해부터 단편 비디오, 생방송, 미니 프로그램 및 기타 통신사에서 사용되기 시작했습니다. 파트너에게 기본적인 서비스를 제공합니다.
가까운 미래에 생성 AI를 기반으로 하는 디지털 휴먼이 계속해서 업그레이드됨에 따라 우리는 더 많은 시나리오에서 더 나은 상호 작용을 경험하고 디지털과 현실이 통합된 진정한 스마트 라이프에 진입할 것이라고 예측할 수 있습니다.
위 내용은 디지털 휴먼이 아시안 게임의 주요 횃불을 밝히고, 이 ICCV 논문에서 Ant의 생성 AI 블랙 기술을 공개합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!