Heim > Artikel > Technologie-Peripheriegeräte > [Original] Verwenden Sie große Modelle, um automatisch Notizen zu machen, PPT zu extrahieren und Interviews zu organisieren. Das neue KI-Produkt „Tongyi Listening“ von Alibaba Cloud steht zum öffentlichen Testen zur Verfügung
Lesen Sie den Reporter Chen Shu von Chuang/Shenzhen Business Daily
Am 1. Juni gab Alibaba Cloud den Fortschritt des Tongyi-Großmodells bekannt. Das neue KI-Produkt „Tongyi Listening“ mit Schwerpunkt auf Audio- und Videoinhalten wurde offiziell eingeführt und ist damit das erste Großmodell-Anwendungsprodukt in China, das öffentlich getestet werden kann.
Tongyi Tingwu ist mit den Verständnis- und Zusammenfassungsfunktionen des Tongyi Qianwen-Großmodells verbunden und kann zu einem leistungsstarken KI-Assistenten für Benutzer beim Arbeiten und Lernen werden, der dabei hilft, die Transkription, den Abruf, die Zusammenfassung und die Organisation von Audio- und Videoinhalten jederzeit effizient abzuschließen und überall. Verwenden Sie beispielsweise große Modelle, um automatisch Notizen zu machen, Interviews zu organisieren, PPT zu extrahieren usw. Während der öffentlichen Betaphase können Benutzer kostenlose Transkriptionszeit für mehr als 100 Stunden Hörverständnis erhalten.
„Auf andere Weise können Audio und Video einfach gelesen, organisiert und geteilt werden.“ Zhou Jingren, CTO von Alibaba Cloud, stellte vor, dass Tingwu ein KI-Assistent für das Arbeitsstudium ist, der auf Audio- und Videoinhaltsszenarien mit hohem Wissensmehrwert abzielt, z B. Meetings, Kurse, Interviews, Schulungen, Interviews, Live-Übertragungen, das Ansehen von Videos, das Anhören von Podcasts usw. können durch die neueste KI-Technologie wie große Modelle schnell Wissen verfeinern und ansammeln.
[caption id="attachment_3846381" align="alignnone" width="1000"]
Tongyi Listening kann automatisch Volltextzusammenfassungen, Kapitelzusammenfassungen und Sprachzusammenfassungen für Audio und Video generieren[/caption]
Tingwu zeigte eine Live-Demonstration, die mehr als zehn Funktionen der künstlichen Intelligenz umfasste, die die Effizienz der Wissensvermittlung von Audio und Video bis hin zu Grafiken und Text umfassend verbessern können. Neben „gutem Hören“ kann er Besprechungsaufzeichnungen mit hoher Genauigkeit erstellen und verschiedene Sprecher unterscheiden. Das große Modell kann Audio und Video in einer Sekunde in Kapitel unterteilen und Zusammenfassungen, Zusammenfassungen usw. erstellen Vollständiger Text der Standpunkte jedes Redners, Organisation der Schwerpunkte und To-Do-Liste. In naher Zukunft wird ein großes Modell auf den Markt kommen, das Funktionen wie die Ein-Klick-Extraktion von PPT, die KI-Befragung mehrerer Audio- und Videoinhalte und die Zusammenfassung bestimmter Absätze umfasst.
[caption id="attachment_3846394" align="alignnone" width="736"]
Das Tongyi Tingwu Chrome-Plug-in wird in naher Zukunft für alle Benutzer zum Download verfügbar sein[/caption]
Für einige Nischenszenarien hat Tingwu auch viele „Schatzfunktionen“ eingerichtet: Öffnen Sie das Chrome-Plugin, Fremdsprachenlerner und Hörgeschädigte können jederzeit und überall zweisprachige schwebende Untertitel verwenden, um Videos ohne Untertitel anzusehen Konflikt, Tingwu kann immer noch zu einem „Meeting-Stellvertreter“ für Profis werden. Wenn Sie in einer stummen Situation an einem Meeting teilnehmen, kann die KI das Meeting aufzeichnen und die Transkriptionsergebnisse als Untertiteldateien herunterladen um die Video-Postproduktion durch Praktiker der neuen Medien zu erleichtern; die Q&A-Überprüfung des Hörverständnisses kann Reportern, Analysten, Anwälten, Personalabteilungen und anderen Gruppen helfen, Interviews effizienter zu organisieren.
Tingwu ist mit Alibaba Cloud Disk verbunden und Audio- und Videoinhalte auf der Cloud Disk können mit einem Klick transkribiert werden. Tingwu-Benutzer, die sich während der öffentlichen Betaphase registriert haben, erhalten außerdem größeren Alibaba Cloud Disk-Speicherplatz und können Videos online in der Cloud abspielen Untertitel können auch automatisch beim Abspielen erstellt werden.
Zhou Jingren stellte vor, dass Tingwu Alibabas fortschrittlichste Sprach- und Sprachtechnologie integriert. Es verfügt über ein integriertes Spracherkennungsmodell der neuen Generation von Alibaba, und die Erkennungsgenauigkeit steht in mehreren maßgeblichen chinesischen Datensätzen an erster Stelle. Es integriert den selbst entwickelten sprachsemantischen multimodalen Sprecheralgorithmus und kann Rollen in Szenen unterscheiden, in denen es mehr gibt Wenn mehr als 10 Personen sprechen, kann es Zehntausende Wörter von Audio- und Videoinhalten zusammenfassen, was die sachliche Genauigkeit und Vollständigkeit wichtiger Punkte angeht und ein genaues Verständnis von Fragen und Antworten unterstützt mehrere Audio- und Videoinhalte.
Rezensent: Tan Lugang
Das obige ist der detaillierte Inhalt von[Original] Verwenden Sie große Modelle, um automatisch Notizen zu machen, PPT zu extrahieren und Interviews zu organisieren. Das neue KI-Produkt „Tongyi Listening“ von Alibaba Cloud steht zum öffentlichen Testen zur Verfügung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!