Maison > Article > Périphériques technologiques > [Original] Utilisez de grands modèles pour prendre automatiquement des notes, extraire des PPT et organiser des entretiens. Le nouveau produit d'IA d'Alibaba Cloud « Tongyi Listening » est ouvert aux tests publics.
Lire Chen Shu, journaliste du Chuang/Shenzhen Business Daily
Le 1er juin, Alibaba Cloud a annoncé les progrès du modèle à grande échelle Tongyi. Le nouveau produit d'IA « Tongyi Listening » axé sur le contenu audio et vidéo a été officiellement lancé, devenant ainsi le premier produit d'application de modèle à grande échelle en Chine ouvert au public. essai.
Tongyi Tingwu est connecté aux capacités de compréhension et de synthèse du grand modèle Tongyi Qianwen et peut devenir un puissant assistant d'IA pour les utilisateurs travaillant et étudiant, aidant à compléter efficacement la transcription, la récupération, la synthèse et l'organisation du contenu audio et vidéo à tout moment. et n'importe où. Par exemple, utilisez de grands modèles pour prendre automatiquement des notes, organiser des entretiens, extraire des PPT, etc. Pendant la période bêta publique, les utilisateurs peuvent bénéficier d'un temps de transcription gratuit pour plus de 100 heures de compréhension orale.
"D'une manière différente, l'audio et la vidéo peuvent être facilement lus, organisés et partagés." Zhou Jingren, directeur technique d'Alibaba Cloud, a présenté que Tingwu est un assistant IA travail-études qui cible des scénarios de contenu audio et vidéo à forte valeur ajoutée de connaissances, tels que Comme les réunions, les cours, les entretiens, les formations, les entretiens, les diffusions en direct, le visionnage de vidéos, l'écoute de podcasts, etc. peuvent rapidement affiner et accumuler des connaissances grâce aux dernières technologies d'IA telles que les grands modèles.
[caption id="attachment_3846381" align="alignnone" width="1000"]
Tongyi Listening peut générer automatiquement des résumés en texte intégral, des résumés de chapitre et des résumés de discours pour l'audio et la vidéo[/caption]
Tingwu a présenté une démonstration en direct, qui comprenait plus de dix fonctions d'intelligence artificielle, qui peuvent améliorer considérablement l'efficacité du transfert de connaissances de l'audio et de la vidéo aux graphiques et au texte. En plus d'une « bonne audition », il peut générer des enregistrements de réunion avec une grande précision et distinguer les différents intervenants. Cet assistant IA est également « extrêmement perspicace ». Le grand modèle peut diviser l'audio et la vidéo en chapitres en une seconde et former des résumés, des résumés et des résumés. texte intégral de chaque intervenant. Points de vue, organisation du focus et liste de choses à faire. Un grand modèle sera lancé dans un avenir proche, comprenant des fonctions telles que l'extraction en un clic de PPT, l'interrogation par l'IA de plusieurs contenus audio et vidéo et la synthèse de paragraphes spécifiques.
[caption id="attachment_3846394" align="alignnone" width="736"]
Le plug-in Tongyi Tingwu Chrome sera disponible en téléchargement pour tous les utilisateurs dans un avenir proche[/caption]
Pour certains scénarios de niche, Tingwu a également mis en place de nombreuses « fonctions trésor » : ouvrez le plug-in Chrome, les apprenants de langues étrangères et les malentendants peuvent utiliser des sous-titres flottants bilingues pour regarder des vidéos sans sous-titres à tout moment et n'importe où. conflit, Tingwu peut toujours Il peut devenir un « remplaçant de réunion » pour les professionnels Lorsque vous rejoignez une réunion en mode muet, l'IA peut enregistrer la réunion et organiser les points clés en votre nom ; des fichiers pour faciliter la post-production vidéo par les praticiens des nouveaux médias ; l'examen questions-réponses de la compréhension orale peut permettre aux journalistes, analystes, avocats, RH et autres groupes d'organiser les entretiens plus efficacement.
Tingwu est connecté à Alibaba Cloud Disk, et le contenu audio et vidéo sur le disque cloud peut être transcrit en un seul clic. Les utilisateurs de Tingwu qui se sont inscrits pendant la période bêta publique recevront également un espace de stockage Alibaba Cloud Disk plus important et pourront lire des vidéos en ligne dans le cloud. Les sous-titres peuvent également être automatiquement produits lors de la lecture.
Zhou Jingren a présenté que Tingwu intègre la technologie vocale et linguistique la plus avancée d'Alibaba. Il intègre le modèle de reconnaissance vocale de nouvelle génération de qualité industrielle d'Alibaba, et la précision de la reconnaissance se classe au premier rang dans plusieurs ensembles de données chinois faisant autorité ; il intègre l'algorithme de haut-parleur multimodal de sémantique vocale auto-développé et peut distinguer les rôles dans les scènes où plus plus de 10 personnes parlent ; Après avoir accédé au grand modèle Tongyi Qianwen, il peut résumer des dizaines de milliers de mots de contenu audio et vidéo, leader du pays en termes d'exactitude factuelle et d'exhaustivité des points clés, et prend en charge une compréhension précise des questions et réponses à travers plusieurs contenus audio et vidéo.
Critique : Tan Lugang
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!