자연스럽고 제어 가능한 HSI(Human Scene Interaction) 생성은 가상현실/증강현실(VR/AR) 콘텐츠 제작, 인간 중심 인공지능 등 다양한 분야에서 중요한 역할을 합니다.
그러나 기존 방법은 제한된 제어 가능성, 제한된 상호 작용 유형 및 부자연스러운 결과 생성으로 인해 실제 생활에서의 적용 시나리오가 심각하게 제한됩니다
ICCV 2023 연구에서 천진대학교와 칭화대학교 팀이 등장했습니다. 내레이터라는 솔루션을 사용하여 이 문제를 탐색합니다. 이 솔루션은 텍스트 설명
images
프로젝트 홈페이지 링크: http://cic.tju.edu.cn/faculty/에서 자연스럽고 제어 가능하게 현실적이고 다양한 인간 장면 상호 작용을 생성하는 어려운 작업에 중점을 둡니다. likun/projects/Narrator
다시 작성된 내용은 다음과 같습니다. 코드 링크: https://github.com/HaibiaoXuan/Narrator
인간 인지의 관점에서 이상형 생성 모델은 공간 관계에 대해 올바르게 추론할 수 있어야 합니다. 상호 작용의 자유도를 탐색합니다.
이에 저자는 관계형 추론을 기반으로 한 생성 모델을 제안합니다. 이 모델은 장면 그래프를 통해 장면과 설명의 공간적 관계를 모델링하고 상호 작용 동작을 원자 신체 부분 상태로 나타내는 부분 수준 상호 작용 메커니즘을 도입합니다
특히 저자는 간단하지만 효과적인 다인 세대를 제안합니다. 전략, 이것은 다중 사람 장면의 제어 가능한 대화형 생성에 대한 첫 번째 탐색입니다
마지막으로 광범위한 실험과 사용자 연구를 통해 저자는 내레이터가 제어 가능한 방식으로 다양한 생성을 생성할 수 있음을 입증했습니다. 기존 작업
기존 인간 장면 상호 작용 생성 방법은 대부분 상호 작용의 물리적인 기하학적 관계에 중점을 두지만 생성에 대한 의미론적 제어가 부족하고 또한 싱글 플레이어 생성에 국한됩니다.
따라서 저자는 자연어 설명에서 현실적이고 다양한 인간 장면 상호 작용을 제어 가능하게 생성하는 어려운 작업에 중점을 둡니다. 저자는 인간이 일반적으로 공간 인식과 행동 인식을 사용하여 다양한 위치에서 다양한 상호 작용에 참여하는 사람들을 자연스럽게 설명한다는 것을 관찰했습니다.
Picture
다시 작성된 내용은 다음과 같습니다. 그림 1에 따르면 내레이터는 다음 상황에 적용할 수 있는 의미론적으로 일관되고 물리적으로 합리적인 인간-장면 상호 작용을 자연스럽고 제어 가능하게 생성할 수 있습니다. (a) 공간 관계별 -가이드 상호작용, (b) 다중 액션에 의한 상호작용, (c) 다중 사람 장면 상호작용, (d) 위의 상호작용 유형을 결합한 사람-장면 상호작용
구체적으로는 공간적 관계를 사용할 수 있습니다. 장면이나 지역의 다른 개체. 사람의 발이 땅에 닿는 것, 몸통에 기대는 것, 오른손으로 두드리는 것, 머리를 숙이는 것 등 원자적인 신체 부위의 상태에 따라 인터랙티브 액션이 지정됩니다.
이를 출발점으로 하여 저자는 장면 그래프를 사용하여 공간 관계를 표현하고 JGLSG(Joint Global and Local Scene Graph) 메커니즘을 사용하여 후속 세대에 전역 위치 인식을 제공할 것을 제안합니다.
동시에, 신체 부위의 상태가 텍스트와 일치하는 사실적인 상호 작용을 시뮬레이션하는 데 핵심이라는 점을 고려하여 저자는 인체 부위와 동작 간의 대응 관계를 설정하기 위해 PLA(Part-level Action) 메커니즘을 도입했습니다.
제안된 관계형 추론의 효과적인 관찰 인식과 유연성 및 재사용성을 활용하여 저자는 자연적으로 제어 가능하고 사용자 친화적인 최초의 친화적인 다중 인간 장면인 간단하고 효과적인 다중 인간 생성 전략을 제안합니다. 상호작용(MHSI) 생성 솔루션.
내레이터의 목표는 자연스럽고 제어 가능한 방식으로 캐릭터와 장면 간의 상호 작용을 생성하는 것입니다. 이는 의미상 텍스트 설명과 일치하고 세 가지를 물리적으로 일치시킵니다. -차원 장면
그림
그림 2 내레이터 프레임워크 개요
그림 2에서 볼 수 있듯이 이 방법은 Transformer 기반 cVAE(Conditional Variational Autoencoder)를 사용하며 주로 다음과 같은 여러 부분을 포함합니다. :
기존 연구와 비교하여 복잡한 공간 관계를 추론하고 전역 위치 인식을 달성하기 위해 글로벌 및 로컬 공동 장면 그래프 메커니즘을 설계합니다
2) 동시에 지나갈 사람들을 타겟팅합니다. 인터랙티브 관찰 다양한 신체 부위로 완성된 액션, 구성요소 수준의 액션 메커니즘을 도입하여 현실적이고 다양한 상호작용 구현
장면 인식 최적화 과정에서 더 나은 결과를 얻기 위해 대화형 이분 손실을 추가로 도입하여 생성된 결과
4) 다중 사용자 상호 작용 생성으로 더욱 확장되어 궁극적으로 다중 사용자 장면 상호 작용의 첫 번째 단계를 촉진합니다.
공간 관계의 추론은 모델에 장면별 단서를 제공할 수 있으며, 이는 인간과 장면 상호 작용의 자연스러운 제어 가능성을 달성하는 데 중요한 역할을 합니다.
이 목표를 달성하기 위해 저자는 다음 세 단계를 통해 구현되는 글로벌 및 로컬 장면 그래프 결합 메커니즘을 제안합니다.
1 글로벌 장면 그래프 생성: 장면이 주어지면 사전 훈련된 장면 그래프 모델은 전역 장면 그래프, 즉 를 생성합니다. 여기서 , 는 범주 레이블이 있는 객체이고, 는 와 사이의 관계이고, n은 객체 수, m은 관계 수입니다.
2. 로컬 장면 그래프 생성: 의미론적 분석 도구를 사용하여 설명된 문장 구조를 식별하고 로컬 장면을 추출 및 생성합니다.여기서
는 주어-술어-객체의 삼중항을 정의합니다. 장면 그래프 일치: 동일한 객체를 통해; 시맨틱 태그 모델은 글로벌 씬 그래프와 로컬 씬 그래프의 노드에 대응하고, 에지 관계를 확장하여 가상 휴먼 노드를 추가하여 위치 정보를 제공 PLA(Component Level Action) 메커니즘 저자는 모델이 주어진 상호 작용에서 중요한 신체 부위 상태를 인지하고 관련 없는 부분을 무시할 수 있는 세분화된 부분 수준 동작 메커니즘을 제안합니다. 특히 저자는 풍부하고 다양한 상호 작용 동작을 탐색하고 이를 매핑합니다. 인체의 다섯 가지 주요 부분(머리, 몸통, 왼쪽/오른팔, 왼쪽/오른손, 왼쪽/오른쪽 하체)에 가능한 동작입니다. 이후 코딩에서는 One-Hot을 사용하여 이러한 액션과 신체 부위를 동시에 표현하고 해당 관계에 따라 연결할 수 있습니다. 저자는 멀티 액션의 인터랙티브 세대에 속합니다. 신체 구조의 다양한 부분의 상태를 학습하기 위해 주의 메커니즘이 채택되었습니다 주어진 상호 작용 동작의 조합에서 각 동작에 해당하는 신체 부분과 다른 모든 동작 간의 주의가 자동으로 보호됩니다. "캐비닛을 사용하여 바닥에 쪼그리고 앉는 사람"을 예로 들면, 쪼그리고 앉는 것은 하체의 상태에 해당하므로 다른 부분으로 표시되는주의가 0으로 차단됩니다. 재작성된 내용: "캐비닛을 사용하여 바닥에 쪼그려 앉은 사람"을 예로 들어보겠습니다. 쪼그리고 앉는 것은 하체의 상태에 해당하므로 다른 신체 부위의 주의가 완전히 차단됩니다 장면 인식 최적화저자는 장면 인식 최적화를 위해 기하학적 및 물리적 제약 조건을 활용하여 생성 결과를 개선합니다. 최적화 과정 전반에 걸쳐 이 방법은 생성된 포즈가 벗어나지 않도록 보장하면서 장면과의 접촉을 장려하고 신체를 구속하여 장면과의 상호 침투를 방지합니다 3차원 장면 S와 생성된 SMPL-X 매개변수를 고려하여 , 최적화 손실은 다음과 같습니다.
그 중 는 신체 정점이 장면과 접촉하도록 장려합니다. 는 부호 있는 거리를 기반으로 하는 충돌 용어입니다. 는 기존 작업에 추가로 도입된 IBS(Interactive Bipartite Surface) 손실입니다. 장면과 인체 샘플링 포인트 세트 는 초기화에서 벗어나는 매개변수에 페널티를 적용하는 데 사용되는 정규화 요소입니다.
실제 장면에서는 많은 경우 장면과 상호 작용하는 사람이 한 명뿐 아니라 여러 사람이 독립적이거나 연관된 방식으로 상호 작용합니다.
그러나 MHSI 데이터 세트가 부족하기 때문에 기존 방법에는 일반적으로 추가 수동 작업이 필요하며 이 작업을 제어 가능하고 자동으로 처리할 수 없습니다.
이를 위해 저자는 기존의 1인 데이터세트만을 활용하고, 다인 세대 방향에 대한 간단하고 효과적인 전략을 제안합니다.
여러 사람과 관련된 텍스트 설명이 주어지면 작성자는 먼저 이를 여러 로컬 장면 그래프 및 대화형 작업으로 구문 분석하고 후보 집합을 으로 정의합니다. 여기서 l은 사람 수입니다.
후보 집합의 각 항목에 대해 먼저 장면 및 해당 전역 장면 그래프와 함께 내레이터에 입력된 다음 최적화 프로세스가 수행됩니다.
사람 간의 충돌을 처리하기 위해 최적화 과정에서 추가 손실 이 도입됩니다. 여기서 는 사람 사이의 부호 있는 거리입니다.
그런 다음 최적화 손실이 실험 경험을 기반으로 결정된 임계값보다 낮으면 생성된 결과가 승인되고 휴먼 노드를 추가하여 업데이트됩니다. 그렇지 않으면 생성된 결과는 신뢰할 수 없는 것으로 간주되어 해당 개체 노드를 보호하여 업데이트됩니다 .
이 업데이트 방법은 각 세대의 결과와 이전 세대의 결과 사이의 관계를 설정하고 어느 정도 혼잡을 피하며 단순한 다중 세대보다 공간 분포가 더 합리적이고 대화형이라는 점에 주목할 가치가 있습니다. .
위 프로세스는 다음과 같이 표현될 수 있습니다.
현재 기존 방법으로는 텍스트 설명에서 직접 인간-장면 상호 작용을 자연스럽고 제어 가능하게 생성할 수 없기 때문에 PiGraph [ 1], POSA [2], COINS [3]는 텍스트 설명 작업을 위해 합리적으로 확장되었으며 동일한 데이터 세트를 사용하여 공식 모델을 교육합니다. 수정 후 우리는 이러한 메소드 이름을 PiGraph-Text, POSA-Text 및 COINS-Text
로 지정했습니다.Pictures
그림 3 다양한 방법의 정성적 비교 결과
그림 3은 Narrator와 세 가지 기준선의 정성적 비교 결과를 보여줍니다. PiGraph-Text의 표현 제한으로 인해 더 심각한 침투 문제가 있습니다.
POSA-Text는 최적화 과정에서 로컬 최소값에 빠지는 경우가 많아 상호 작용이 좋지 않습니다. COINS-Text는 액션을 특정 개체에 묶고, 장면에 대한 전체적인 인식이 부족하고, 불특정 개체에 대한 침투로 이어지며, 복잡한 공간 관계를 처리하기 어렵습니다.
반대로 내레이터는 다양한 수준의 텍스트 설명을 기반으로 공간 관계를 올바르게 추론하고 여러 작업에서 신체 상태를 분석하여 더 나은 생성 결과를 얻을 수 있습니다.
정량적 비교 측면에서 표 1에 표시된 것처럼 내레이터는 5가지 지표에서 다른 방법보다 성능이 뛰어나며 이 방법으로 생성된 결과가 더 정확한 텍스트 일관성과 더 나은 물리적 타당성을 가짐을 보여줍니다.
표 1 다양한 방법의 정량적 비교 결과
또한 저자는 제안된 MHSI 전략의 효율성을 더 잘 이해할 수 있도록 자세한 비교 및 분석도 제공합니다.
현재 MHSI에 대한 작업이 없다는 점을 고려하여 그들은 COINS를 사용한 순차적 생성 및 최적화라는 간단한 접근 방식을 기준으로 선택했습니다.
공정한 비교를 위해 인위적인 충돌 손실도 도입되었습니다. 그림 4와 표 2는 각각 정성적 결과와 정량적 결과를 보여주며, 두 가지 모두 저자가 제안한 전략이 MHSI에서 의미론적으로 일관되고 물리적으로 합리적이라는 것을 강력하게 입증합니다.
그림 4 COINS 순차 생성 및 최적화 방법을 이용한 MHSI와의 정성적 비교
주요 연구 방향 3차원 시각을 포함하고, 컴퓨터 비전 및 인간 장면 상호 작용 생성
주요 연구 방향: 3차원 비전, 컴퓨터 비전, 인체 및 의복 재구성
연구 방향에는 주로 3차원 비전이 포함됩니다. 비전, 컴퓨터 비전 및 이미지 생성
연구 방향은 주로 인간 중심의 컴퓨터 비전과 그래픽
주요 연구 방향: 컴퓨터 그래픽, 3차원 비전 및 컴퓨터 사진
개인 홈페이지 링크 : https://liuyebin.com/
[ 1] Savva M, Chang A M, Ghosh P, Tesch J, et al. 인간-장면 상호 작용을 학습하여 3D 장면 채우기[C] 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행: 14708- 14718.[3] Zhao K, Wang S, Zhang Y, et al. 의미 제어를 통한 구성적 인간-장면 상호 작용 합성[C]. 컴퓨터 비전에 관한 유럽 회의: Springer Nature Switzerland, 2022: 311-327.
위 내용은 "사람과 장면의 대화형 생성"의 새로운 돌파구! Tianda University와 Tsinghua University, 내레이터 출시: 텍스트 기반, 자연스럽게 제어 가능 ICCV 2023 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!