찾다
기술 주변기기일체 포함네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

친구들과 차가운 모바일 화면 너머로 채팅을 하고 있을 때, 상대방의 말투를 추측해야 합니다. 그가 말할 때, 그의 표정은 물론 심지어 행동까지도 당신의 마음 속에 나타날 수 있습니다. 물론 영상통화를 할 수 있다면 가장 좋겠지만, 실제 상황에서는 아무 때나 영상통화를 할 수는 없습니다.

원격 친구와 채팅을 하고 있다면 차가운 화면의 문자나 표정이 부족한 아바타가 아닌, 현실적이고 역동적이며 표현력이 풍부한 디지털 가상 인물입니다. 이 가상 인물은 친구의 미소, 눈, 심지어 미묘한 신체 움직임까지 완벽하게 재현할 수 있습니다. 좀 더 친절하고 따뜻해지는 느낌이 들지 않을까요? "당신을 찾기 위해 네트워크 케이블을 따라 기어갈 것입니다"라는 문장을 실제로 구현합니다.

이것은 SF 판타지가 아닌 현실에서 구현 가능한 기술입니다.

얼굴 표정과 신체 움직임에는 많은 양의 정보가 포함되어 있어 콘텐츠의 의미에 큰 영향을 미칩니다. 예를 들어, 항상 상대방을 바라보며 말하는 것은 눈을 마주치지 않고 말하는 것과는 전혀 다른 느낌을 주게 되고, 이는 상대방이 의사소통 내용을 이해하는 데에도 영향을 미치게 됩니다. 우리는 의사소통 중에 이러한 미묘한 표정과 움직임을 감지하고 이를 사용하여 대화 상대의 의도, 편안함 정도 또는 이해에 대한 높은 수준의 이해를 발전시키는 매우 예리한 능력을 가지고 있습니다. 따라서 이러한 미묘함을 포착하는 매우 사실적인 대화형 아바타를 개발하는 것은 상호 작용에 매우 중요합니다.

이를 위해 Meta와 University of California의 연구진은 두 사람의 대화 음성 오디오를 기반으로 사실적인 가상 인간을 생성하는 방법을 제안했습니다. 음성과 밀접하게 동기화되는 다양한 고주파 제스처와 표정이 풍부한 얼굴 움직임을 합성할 수 있습니다. 신체와 손의 경우 자동 회귀 VQ 기반 접근 방식과 확산 모델의 장점을 활용합니다. 얼굴의 경우 오디오를 조건으로 한 확산 모델을 사용합니다. 예측된 얼굴, 몸, 손의 움직임은 현실적인 가상 인간으로 렌더링됩니다. 확산 모델에 안내 제스처 조건을 추가하면 이전 작업보다 더 다양하고 합리적인 대화 제스처가 생성될 수 있음을 보여줍니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.


  • 논문 주소: https://huggingface.co/papers/2401.01885
  • 프로젝트 주소: https://people.eecs.berkeley.edu/~evonne_ng / projects/audio2photoreal/

연구원들은 대인 대화를 위해 사실적인 얼굴, 몸, 손 움직임을 생성하는 방법을 연구한 최초의 팀이라고 말합니다. 연구진은 기존 연구에 비해 VQ와 확산 방식을 기반으로 보다 현실적이고 다양한 액션을 합성했다.

방법 개요

연구진은 녹화된 다시점 데이터에서 잠재 표정 코드를 추출하여 얼굴을 표현하고, 운동학적 골격의 관절 각도를 사용하여 신체 자세를 표현했습니다. 그림 3에서 볼 수 있듯이 이 시스템은 두 사람의 대화 오디오를 입력할 때 표정 코드와 신체 자세 시퀀스를 생성하는 두 개의 생성 모델로 구성됩니다. 그런 다음 표현 코드와 신체 포즈 시퀀스는 신경 아바타 렌더러를 사용하여 프레임별로 렌더링될 수 있습니다. 이 렌더러는 주어진 카메라 뷰에서 얼굴, 신체, 손이 포함된 완전히 질감이 있는 아바타를 생성할 수 있습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

몸과 얼굴의 역학은 매우 다르다는 점에 유의해야 합니다. 첫째, 얼굴은 입력 오디오, 특히 입술 움직임과 강한 상관관계가 있는 반면 신체는 음성과 약한 상관관계가 있습니다. 이로 인해 주어진 음성 입력에서 신체 제스처가 더욱 복잡해지고 다양해집니다. 둘째, 얼굴과 신체는 서로 다른 두 공간에 표현되기 때문에 각각 서로 다른 시간적 역학을 따릅니다. 따라서 연구원들은 얼굴과 신체를 시뮬레이션하기 위해 두 개의 독립적인 모션 모델을 사용했습니다. 이러한 방식으로 얼굴 모델은 말과 일치하는 얼굴 세부 사항에 "집중"할 수 있는 반면 신체 모델은 다양하지만 합리적인 신체 움직임을 생성하는 데 더 집중할 수 있습니다.

얼굴 동작 모델은 사전 훈련된 입술 회귀기에 의해 생성된 입력 오디오 및 입술 꼭짓점을 조건으로 한 확산 모델입니다(그림 4a). 사지 움직임 모델의 경우, 연구원들은 오디오에만 조건을 맞춘 순수 확산 모델에 의해 생성된 움직임이 다양성이 부족하고 시간 순서에서 충분히 조정되지 않는다는 것을 발견했습니다. 그러나 연구자들이 다양한 안내 자세를 조건으로 했을 때 품질이 향상되었습니다. 따라서 신체 동작 모델을 두 부분으로 나눕니다. 첫째, 자동회귀 오디오 컨디셔너는 1fp에서 대략적인 안내 포즈를 예측하고(그림 4b), 확산 모델은 이러한 대략적인 안내 포즈를 활용하여 세밀하고 높은 수준의 정보를 채웁니다. 주파수 운동(그림 4c). 방법 설정에 대한 자세한 내용은 원본 기사를 참조하세요.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

실험 및 결과

연구원들은 실제 데이터를 기반으로 사실적인 대화 동작을 효과적으로 생성하는 Audio2Photoreal의 능력을 정량적으로 평가했습니다. 정량적 결과를 확증하고 주어진 대화 상황에서 제스처를 생성하는 데 있어 Audio2Photoreal의 적절성을 측정하기 위해 지각 평가도 수행되었습니다. 실험 결과 평가자는 3D 메쉬가 아닌 현실적인 아바타에 제스처가 제시되었을 때 미묘한 제스처에 더 민감하다는 것을 보여주었습니다.

연구원들은 이 방법으로 생성된 결과를 훈련 세트의 무작위 모션 시퀀스를 기반으로 하는 KNN, SHOW 및 LDA의 세 가지 기본 방법과 비교했습니다. 오디오나 안내 제스처 없이, 안내 제스처 없이 오디오를 기반으로 하고, 오디오 없이 안내 제스처를 기반으로 하는 Audio2Photoreal의 각 구성 요소의 효율성을 테스트하기 위해 절제 실험이 수행되었습니다.

정량적 결과

표 1은 이전 연구와 비교하여 가장 다양성이 높은 모션을 생성할 때 우리 방법이 가장 낮은 FD 점수를 갖는다는 것을 보여줍니다. 랜덤은 GT와 일치하는 좋은 다양성을 가지고 있지만, 랜덤 세그먼트는 해당 대화 역학과 일치하지 않아 FD_g가 높습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 5는 우리 방법으로 생성된 다양한 안내 포즈를 보여줍니다. VQ 기반 트랜스포머 P-샘플링을 사용하면 동일한 오디오 입력으로 매우 다양한 제스처를 생성할 수 있습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 6에서 볼 수 있듯이 확산 모델은 동적 동작을 생성하는 방법을 학습하며, 여기서 동작은 대화 오디오와 더 잘 일치합니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

그림 7을 보면 LDA에 의해 생성된 모션은 활력이 부족하고 움직임이 적은 것을 알 수 있습니다. 대조적으로, 이 방법으로 합성된 모션 변화는 실제 상황과 더 일치합니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

또한 연구원들은 입술 움직임을 생성하는 데 있어 이 방법의 정확성도 분석했습니다. 표 2의 통계에서 알 수 있듯이 Audio2Photoreal은 기본 방법인 SHOW의 성능뿐만 아니라 절제 실험에서 사전 훈련된 립 회귀자를 제거한 후의 성능도 크게 능가합니다. 이 디자인은 말할 때 입 모양의 동기화를 개선하고, 말하지 않을 때 입이 임의로 열리고 닫히는 움직임을 효과적으로 방지하며, 모델이 더 나은 입술 움직임 재구성을 달성할 수 있도록 하며 동시에 얼굴 메시 정점을 줄입니다(그리드 L2). 오류.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

정성적 평가

대화에서 몸짓의 일관성은 정량화하기 어렵기 때문에 연구자들은 정성적 평가 방법을 사용하여 평가했습니다. 그들은 MTurk에서 두 세트의 A/B 테스트를 실시했습니다. 구체적으로 평가자들에게 우리 방법과 기준 방법으로 생성된 결과 또는 우리 방법과 실제 장면의 비디오 쌍을 보고 어떤 비디오에서 모션이 더 합리적으로 보이는지 평가하도록 요청했습니다.

그림 8에서 볼 수 있듯이 이 방법은 이전 기본 방법인 LDA보다 훨씬 우수하며 평가자의 약 70%가 그리드 및 사실성 측면에서 Audio2Photoreal을 선호합니다.

그림 8의 상단 차트에서 볼 수 있듯이 LDA와 비교하여 이 방법에 대한 평가자의 평가는 '약간 선호'에서 '강하게 선호'로 변경되었습니다. 실제 상황과 비교해도 같은 평가가 제시된다. 그럼에도 불구하고 평가자들은 현실감 측면에서 Audio2Photoreal보다 실제를 선호했습니다.

네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.

더 자세한 기술적인 내용은 원본 논문을 읽어보세요.

위 내용은 네트워크 케이블을 타고 올라가는 것이 현실이 되었습니다. Audio2Photoreal은 대화를 통해 사실적인 표현과 움직임을 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Huggingface Smollm으로 개인 AI 조수를 만드는 방법Huggingface Smollm으로 개인 AI 조수를 만드는 방법Apr 18, 2025 am 11:52 AM

ON-DEVICE AI의 힘을 활용 : 개인 챗봇 CLI 구축 최근에 개인 AI 조수의 개념은 공상 과학처럼 보였다. 기술 애호가 인 Alex, 똑똑하고 현지 AI 동반자를 꿈꾸는 것을 상상해보십시오.

정신 건강을위한 AI는 스탠포드 대학교의 흥미로운 새로운 이니셔티브를 통해주의 깊게 분석됩니다.정신 건강을위한 AI는 스탠포드 대학교의 흥미로운 새로운 이니셔티브를 통해주의 깊게 분석됩니다.Apr 18, 2025 am 11:49 AM

AI4MH의 첫 출시는 2025 년 4 월 15 일에 열렸으며, 유명한 정신과 의사이자 신경 과학자 인 Luminary Dr. Tom Insel 박사는 킥오프 스피커 역할을했습니다. Insel 박사는 정신 건강 연구 및 테크노에서 뛰어난 작업으로 유명합니다.

2025 WNBA 드래프트 클래스는 리그가 성장하고 온라인 괴롭힘과 싸우고 있습니다.2025 WNBA 드래프트 클래스는 리그가 성장하고 온라인 괴롭힘과 싸우고 있습니다.Apr 18, 2025 am 11:44 AM

Engelbert는 "WNBA가 모든 사람, 플레이어, 팬 및 기업 파트너가 안전하고 가치가 있으며 권한을 부여받는 공간으로 남아 있기를 원합니다. 아노

파이썬 내장 데이터 구조에 대한 포괄적 인 가이드 - 분석 Vidhya파이썬 내장 데이터 구조에 대한 포괄적 인 가이드 - 분석 VidhyaApr 18, 2025 am 11:43 AM

소개 Python은 특히 데이터 과학 및 생성 AI에서 프로그래밍 언어로 탁월합니다. 대규모 데이터 세트를 처리 할 때 효율적인 데이터 조작 (저장, 관리 및 액세스)이 중요합니다. 우리는 이전에 숫자와 st를 다루었습니다

대안과 비교하여 OpenAi의 새로운 모델의 첫인상대안과 비교하여 OpenAi의 새로운 모델의 첫인상Apr 18, 2025 am 11:41 AM

다이빙하기 전에 중요한 경고 : AI 성능은 비 결정적이며 고도로 사용하는 것이 중요합니다. 간단히 말하면 마일리지는 다를 수 있습니다. 이 기사 (또는 다른) 기사를 최종 단어로 취하지 마십시오. 대신 에이 모델을 자신의 시나리오에서 테스트하십시오.

AI 포트폴리오 | AI 경력을위한 포트폴리오를 구축하는 방법은 무엇입니까?AI 포트폴리오 | AI 경력을위한 포트폴리오를 구축하는 방법은 무엇입니까?Apr 18, 2025 am 11:40 AM

뛰어난 AI/ML 포트폴리오 구축 : 초보자 및 전문가를위한 안내서 인공 지능 (AI) 및 머신 러닝 (ML)의 역할을 확보하는 데 강력한 포트폴리오를 만드는 것이 중요합니다. 이 안내서는 포트폴리오 구축에 대한 조언을 제공합니다

보안 운영에 대한 에이전트 AI가 무엇을 의미 할 수 있는지보안 운영에 대한 에이전트 AI가 무엇을 의미 할 수 있는지Apr 18, 2025 am 11:36 AM

결과? 소진, 비 효율성 및 탐지와 동작 사이의 넓은 차이. 이 중 어느 것도 사이버 보안에서 일하는 사람에게는 충격이되지 않습니다. 그러나 에이전트 AI의 약속은 잠재적 인 전환점으로 부상했다. 이 새로운 수업

Google 대 Openai : AI 학생들을위한 AI 싸움Google 대 Openai : AI 학생들을위한 AI 싸움Apr 18, 2025 am 11:31 AM

장기 파트너십 대 즉각적인 영향? 2 주 전 Openai는 2025 년 5 월 말까지 미국과 캐나다 대학생들에게 Chatgpt Plus에 무료로 이용할 수있는 강력한 단기 제안으로 발전했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기