>  기사  >  기술 주변기기  >  네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

WBOY
WBOY앞으로
2024-01-12 09:03:121177검색

친구들과 차가운 모바일 화면 너머로 채팅을 하고 있을 때, 상대방의 말투를 추측해야 합니다. 그가 말할 때, 그의 표정은 물론 심지어 행동까지도 당신의 마음 속에 나타날 수 있습니다. 물론 영상통화를 할 수 있다면 가장 좋겠지만, 실제 상황에서는 아무 때나 영상통화를 할 수는 없습니다.

원격 친구와 채팅을 하고 있다면 차가운 화면의 문자나 표정이 부족한 아바타가 아닌, 현실적이고 역동적이며 표현력이 풍부한 디지털 가상 인물입니다. 이 가상 인물은 친구의 미소, 눈, 심지어 미묘한 신체 움직임까지 완벽하게 재현할 수 있습니다. 좀 더 친절하고 따뜻해지는 느낌이 들지 않을까요? "당신을 찾기 위해 네트워크 케이블을 따라 기어갈 것입니다"라는 문장을 실제로 구현합니다.

이것은 SF 판타지가 아닌 현실에서 구현 가능한 기술입니다.

얼굴 표정과 신체 움직임에는 많은 양의 정보가 포함되어 있어 콘텐츠의 의미에 큰 영향을 미칩니다. 예를 들어, 항상 상대방을 바라보며 말하는 것은 눈을 마주치지 않고 말하는 것과는 전혀 다른 느낌을 주게 되고, 이는 상대방이 의사소통 내용을 이해하는 데에도 영향을 미치게 됩니다. 우리는 의사소통 중에 이러한 미묘한 표정과 움직임을 감지하고 이를 사용하여 대화 상대의 의도, 편안함 정도 또는 이해에 대한 높은 수준의 이해를 발전시키는 매우 예리한 능력을 가지고 있습니다. 따라서 이러한 미묘함을 포착하는 매우 사실적인 대화형 아바타를 개발하는 것은 상호 작용에 매우 중요합니다.

이를 위해 Meta와 University of California의 연구진은 두 사람의 대화 음성 오디오를 기반으로 사실적인 가상 인간을 생성하는 방법을 제안했습니다. 음성과 밀접하게 동기화되는 다양한 고주파 제스처와 표정이 풍부한 얼굴 움직임을 합성할 수 있습니다. 신체와 손의 경우 자동 회귀 VQ 기반 접근 방식과 확산 모델의 장점을 활용합니다. 얼굴의 경우 오디오를 조건으로 한 확산 모델을 사용합니다. 예측된 얼굴, 몸, 손의 움직임은 현실적인 가상 인간으로 렌더링됩니다. 확산 모델에 안내 제스처 조건을 추가하면 이전 작업보다 더 다양하고 합리적인 대화 제스처가 생성될 수 있음을 보여줍니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.


  • 논문 주소: https://huggingface.co/papers/2401.01885
  • 프로젝트 주소: https://people.eecs.berkeley.edu/~evonne_ng / projects/audio2photoreal/

연구원들은 대인 대화를 위해 사실적인 얼굴, 몸, 손 움직임을 생성하는 방법을 연구한 최초의 팀이라고 말합니다. 연구진은 기존 연구에 비해 VQ와 확산 방식을 기반으로 보다 현실적이고 다양한 액션을 합성했다.

방법 개요

연구진은 녹화된 다시점 데이터에서 잠재 표정 코드를 추출하여 얼굴을 표현하고, 운동학적 골격의 관절 각도를 사용하여 신체 자세를 표현했습니다. 그림 3에서 볼 수 있듯이 이 시스템은 두 사람의 대화 오디오를 입력할 때 표정 코드와 신체 자세 시퀀스를 생성하는 두 개의 생성 모델로 구성됩니다. 그런 다음 표현 코드와 신체 포즈 시퀀스는 신경 아바타 렌더러를 사용하여 프레임별로 렌더링될 수 있습니다. 이 렌더러는 주어진 카메라 뷰에서 얼굴, 신체, 손이 포함된 완전히 질감이 있는 아바타를 생성할 수 있습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

몸과 얼굴의 역학은 매우 다르다는 점에 유의해야 합니다. 첫째, 얼굴은 입력 오디오, 특히 입술 움직임과 강한 상관관계가 있는 반면 신체는 음성과 약한 상관관계가 있습니다. 이로 인해 주어진 음성 입력에서 신체 제스처가 더욱 복잡해지고 다양해집니다. 둘째, 얼굴과 신체는 서로 다른 두 공간에 표현되기 때문에 각각 서로 다른 시간적 역학을 따릅니다. 따라서 연구원들은 얼굴과 신체를 시뮬레이션하기 위해 두 개의 독립적인 모션 모델을 사용했습니다. 이러한 방식으로 얼굴 모델은 말과 일치하는 얼굴 세부 사항에 "집중"할 수 있는 반면 신체 모델은 다양하지만 합리적인 신체 움직임을 생성하는 데 더 집중할 수 있습니다.

얼굴 동작 모델은 사전 훈련된 입술 회귀기에 의해 생성된 입력 오디오 및 입술 꼭짓점을 조건으로 한 확산 모델입니다(그림 4a). 사지 움직임 모델의 경우, 연구원들은 오디오에만 조건을 맞춘 순수 확산 모델에 의해 생성된 움직임이 다양성이 부족하고 시간 순서에서 충분히 조정되지 않는다는 것을 발견했습니다. 그러나 연구자들이 다양한 안내 자세를 조건으로 했을 때 품질이 향상되었습니다. 따라서 신체 동작 모델을 두 부분으로 나눕니다. 첫째, 자동회귀 오디오 컨디셔너는 1fp에서 대략적인 안내 포즈를 예측하고(그림 4b), 확산 모델은 이러한 대략적인 안내 포즈를 활용하여 세밀하고 높은 수준의 정보를 채웁니다. 주파수 운동(그림 4c). 방법 설정에 대한 자세한 내용은 원본 기사를 참조하세요.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

실험 및 결과

연구원들은 실제 데이터를 기반으로 사실적인 대화 동작을 효과적으로 생성하는 Audio2Photoreal의 능력을 정량적으로 평가했습니다. 정량적 결과를 확증하고 주어진 대화 상황에서 제스처를 생성하는 데 있어 Audio2Photoreal의 적절성을 측정하기 위해 지각 평가도 수행되었습니다. 실험 결과 평가자는 3D 메쉬가 아닌 현실적인 아바타에 제스처가 제시되었을 때 미묘한 제스처에 더 민감하다는 것을 보여주었습니다.

연구원들은 이 방법으로 생성된 결과를 훈련 세트의 무작위 모션 시퀀스를 기반으로 하는 KNN, SHOW 및 LDA의 세 가지 기본 방법과 비교했습니다. 오디오나 안내 제스처 없이, 안내 제스처 없이 오디오를 기반으로 하고, 오디오 없이 안내 제스처를 기반으로 하는 Audio2Photoreal의 각 구성 요소의 효율성을 테스트하기 위해 절제 실험이 수행되었습니다.

정량적 결과

표 1은 이전 연구와 비교하여 가장 다양성이 높은 모션을 생성할 때 우리 방법이 가장 낮은 FD 점수를 갖는다는 것을 보여줍니다. 랜덤은 GT와 일치하는 좋은 다양성을 가지고 있지만, 랜덤 세그먼트는 해당 대화 역학과 일치하지 않아 FD_g가 높습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 5는 우리 방법으로 생성된 다양한 안내 포즈를 보여줍니다. VQ 기반 트랜스포머 P-샘플링을 사용하면 동일한 오디오 입력으로 매우 다양한 제스처를 생성할 수 있습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 6에서 볼 수 있듯이 확산 모델은 동적 동작을 생성하는 방법을 학습하며, 여기서 동작은 대화 오디오와 더 잘 일치합니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 7을 보면 LDA에 의해 생성된 모션은 활력이 부족하고 움직임이 적은 것을 알 수 있습니다. 대조적으로, 이 방법으로 합성된 모션 변화는 실제 상황과 더 일치합니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

또한 연구원들은 입술 움직임을 생성하는 데 있어 이 방법의 정확성도 분석했습니다. 표 2의 통계에서 알 수 있듯이 Audio2Photoreal은 기본 방법인 SHOW의 성능뿐만 아니라 절제 실험에서 사전 훈련된 립 회귀자를 제거한 후의 성능도 크게 능가합니다. 이 디자인은 말할 때 입 모양의 동기화를 개선하고, 말하지 않을 때 입이 임의로 열리고 닫히는 움직임을 효과적으로 방지하며, 모델이 더 나은 입술 움직임 재구성을 달성할 수 있도록 하며 동시에 얼굴 메시 정점을 줄입니다(그리드 L2). 오류.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

정성적 평가

대화에서 몸짓의 일관성은 정량화하기 어렵기 때문에 연구자들은 정성적 평가 방법을 사용하여 평가했습니다. 그들은 MTurk에서 두 세트의 A/B 테스트를 실시했습니다. 구체적으로 평가자들에게 우리 방법과 기준 방법으로 생성된 결과 또는 우리 방법과 실제 장면의 비디오 쌍을 보고 어떤 비디오에서 모션이 더 합리적으로 보이는지 평가하도록 요청했습니다.

그림 8에서 볼 수 있듯이 이 방법은 이전 기본 방법인 LDA보다 훨씬 우수하며 평가자의 약 70%가 그리드 및 사실성 측면에서 Audio2Photoreal을 선호합니다.

그림 8의 상단 차트에서 볼 수 있듯이 LDA와 비교하여 이 방법에 대한 평가자의 평가는 '약간 선호'에서 '강하게 선호'로 변경되었습니다. 실제 상황과 비교해도 같은 평가가 제시된다. 그럼에도 불구하고 평가자들은 현실감 측면에서 Audio2Photoreal보다 실제를 선호했습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

더 자세한 기술적인 내용은 원본 논문을 읽어보세요.

위 내용은 네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제