Maison >Périphériques technologiques >IA >NVIDIA développe une solution de chat vidéo AI 3D pour les conférences téléphoniques à distance

NVIDIA développe une solution de chat vidéo AI 3D pour les conférences téléphoniques à distance

WBOY
WBOYavant
2023-08-23 18:49:011520parcourir

Les systèmes de vidéoconférence ont été commercialisés pour la première fois il y a plus de 50 ans, permettant aux gens de communiquer de manière audiovisuelle avec des collègues, des amis ou des membres de leur famille à des milliers de kilomètres de distance. Le but ultime de la visioconférence est de permettre une communication immersive entre les participants distants comme s'ils étaient tous au même endroit

Les systèmes de vidéoconférence 3D existants, bien qu'ils présentent un potentiel de capture de contact visuel et d'autres signaux non verbaux, nécessitent un équipement d'acquisition 3D coûteux

Dans un projet intitulé « AI-Mediated 3D Video Conferencing », des équipes de NVIDIA, de l'Université de Californie à San Diego et de l'Université de Caroline du Nord à Chapel Hill ont développé avec succès un système de vidéoconférence 3D haute fidélité et à faible coût utilisant Technologie d'intelligence artificielle IA méthode de téléprésence et fournit de nouvelles fonctions qui ne peuvent pas être obtenues sur la base de la numérisation 3D

De plus, la solution de l’équipe est compatible avec une variété d’écrans 3D existants, notamment les écrans stéréoscopiques et les écrans à champ lumineux

Lecture approfondie : En utilisant l'IA pour réduire la taille, Google présente une nouvelle itération du projet de champ lumineux appelé Project Starline

Il convient de noter que Google utilise l’intelligence artificielle pour améliorer son projet de champ lumineux, Project Starline. En termes simples, Project Starline est une salle de chat vidéo 3D qui utilise la technologie des champs lumineux pour créer l'impression que l'autre partie est réellement assise en face de vous. Cet outil de communication à distance innovant combine les avancées matérielles et logicielles de Google pour rendre les amis, la famille et les collègues plus immersifs lors de la communication à distance

英伟达为远程会议通话研发AI 3D视频聊天解决方案

L'équipe NVIDIA est de retour sur son projet « AI-Mediated 3D Video Conferencing » et a démontré la configuration au SIGGRAPH et a écrit à ce sujet

英伟达为远程会议通话研发AI 3D视频聊天解决方案

Le système illustré comprend un émetteur pour enregistrer et transmettre des vidéos 2D à partir d'une seule webcam RVB et un récepteur pour recevoir et convertir des vidéos 2D en 3D et présenter une nouvelle vue 3D

En utilisant une approche ponctuelle, les chercheurs peuvent déduire et restituer une représentation 3D réaliste à partir d'une seule image non posée en temps réel et générer des images de champ lumineux sur un ordinateur portable NVIDIA RTX A5000. Grâce à la technologie de super-résolution d’IA instantanée, les participants peuvent voir instantanément leur image d’eux-mêmes en 3D. En temps réel, les participants peuvent regarder l'image 2D de la webcam se transformer en une vue stéréoscopique 3D avec suivi de la tête

Les utilisateurs ont la possibilité d'utiliser le module Générateur d'avatars 2D pour générer et personnaliser des avatars 2D pilotés par l'utilisateur en plus d'utiliser des images de webcam

Les chercheurs ont réalisé des progrès importants dans le boosting 3D en proposant un nouvel encodeur basé sur Vision Transformer pour convertir les entrées 2D en représentations 3D implicites triplanaires efficaces. Étant donné une seule image RVB de l'utilisateur, cette méthode est capable de créer automatiquement une représentation 3D frontale de l'utilisateur et de la restituer efficacement depuis un nouveau point de vue via un rendu 3D volumétrique

Une réécriture de cette phrase est la suivante : l'encodeur triplanaire s'appuie entièrement sur les données synthétiques générées par EG3D pré-entraîné pour la formation, tandis que le module de levage 3D utilise les priors générés pour garantir que les vues générées sont cohérentes avec plusieurs vues et présentent des aspects photoréalistes. et peut être appliqué à n'importe qui d'un seul coup sans formation personnelle spécifique

英伟达为远程会议通话研发AI 3D视频聊天解决方案

L'équipe a utilisé des méthodes neuronales de pointe pour obtenir un contact visuel en synthétisant le regard redirigé d'une image d'utilisateur donnée, en mettant à niveau l'image 2D en une image 3D grâce à la correction du regard, comme le montre la figure

Le système prend en charge une variété d'écrans 3D disponibles dans le commerce, y compris les écrans stéréoscopiques pour une seule personne et les écrans de champ lumineux pour plusieurs personnes

英伟达为远程会议通话研发AI 3D视频聊天解决方案

Cette image montre l'utilisation d'un moniteur stéréoscopique 3D de 32 pouces de Dimenco. Il utilise le suivi oculaire et la technologie des lentilles pour restituer des images stéréoscopiques qui affichent avec précision la position des yeux de l'utilisateur. A fournit un aperçu, tandis que b et c démontrent la capacité du système à enregistrer des images stéréoscopiques des participants dans la bonne perspective. Pendant ce temps, d et e illustrent qu'avec une seule image RVB, cette méthode peut générer des effets de téléprésence réalistes

De plus, les chercheurs ont utilisé un moniteur Looking Glass de 32 pouces pour évaluer le système d'IA. L'écran peut afficher simultanément une tête parlante grandeur nature, permettant à plusieurs personnes de la voir clairement. Cet affichage sur champ lumineux fournit une démonstration claire de la technologie à la fois pour le grand public et pour ceux qui attendent des démos

Ensuite, les personnes qui font la queue peuvent essayer les écrans tridimensionnels sur différents stands et faire l'expérience d'appels de vidéoconférence 3D multicanaux guidés par l'intelligence artificielle

Lecture approfondie : Vidéoconférence 3D médiée par l'IA
Lecture approfondie : Portrait 3D en direct : champs de rayonnement en temps réel pour la synthèse d'une vue portrait d'une seule image

Notamment, l'équipe a optimisé l'encodeur en utilisant NVIDIA TensorRT pour permettre l'inférence en temps réel sur les GPU NVIDIA A6000 Ada Generation. L'ensemble du système fonctionne en moins de 100 millisecondes, y compris la capture, le streaming et le rendu

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer