Heim > Artikel > Technologie-Peripheriegeräte > Kultivieren Sie die multimodale KI-Sprachtechnologie intensiv, um ein lokalisiertes intelligentes interaktives Erlebnis zu erzielen
Mit der Entwicklung von 5G und der Technologie der künstlichen Intelligenz ist intelligente Sprache mit verschiedenen intelligenten Endgeräten in das tägliche Leben der Menschen eingedrungen und bietet mehr Komfort und Möglichkeiten. Als Anbieter von Smart-Terminal-Produkten und mobilen Internetdiensten in Schwellenländern konzentriert sich Transsion auf kontinuierliche Innovation im Bereich der künstlichen Intelligenz, fördert kontinuierlich die Forschung und Anwendung der KI-Sprachtechnologie, erforscht stärker lokalisierte Benutzerszenario-Anforderungen und bringt vollständige Szenarien ein Informationen für Benutzer in aufstrebenden Märkten.
Derzeit hat TRANSSION seine eigenen zugrunde liegenden KI-Sprachtechnologiefunktionen in den Bereichen Spracherkennung, semantisches Verständnis, Sprachsynthese, Verarbeitung natürlicher Sprache, Wissensgraphen usw. entwickelt, Vorteile bei Sprachdaten in kleinen Sprachen geschaffen und mehrsprachige Sprachassistenten entwickelt In der digitalen Technologie zur Erkennung von Personen- und Sprachfälschungen wurden große Durchbrüche erzielt. Seit Anfang dieses Jahres erzielt die KI-Technologieabteilung von Transsion weiterhin Ergebnisse, gewann hervorragende Ergebnisse bei der ICASSP 2023 SLU Spoken Language Understanding Challenge und der IJCAI 2023 ADD Voice Deep Forgery Detection International Challenge und veröffentlichte das Digital Human Multi-Model unter die internationale Multimedia-Flaggschiff-Wissenschaftskonferenz ICME 2023. Wissenschaftliche Arbeiten im Zusammenhang mit dynamischer Interaktion.
Erstellen Sie einen mehrsprachigen Sprachassistenten für ein lokales Ökosystem für interaktive Sprachinhalte
Der Sprachassistent ist eine der Standardanwendungen von Smartphones. Seine Kerntechnologie ist die Sprachinteraktion und das Verstehen natürlicher Sprache, die Benutzern helfen soll, Zielaufgaben schneller und effizienter auszuführen. Angesichts der Nachfrage nach lokaler Sprachinteraktion in Schwellenländern beschäftigt sich TRANSSION seit langem intensiv mit der mehrsprachigen Sprachassistententechnologie und konzentriert sich dabei auf das Verständnis der Bedürfnisse lokaler Benutzer und die Entwicklung technischer Lösungen Erfahrung im Explorations-, Forschungs- und Entwicklungsprozess.
Auf der internationalen Spitzenkonferenz ICASSP im Jahr 2023 erzielte die Transsion AI Technology Department große Erfolge bei der SLU (Spoken Language Understanding) Challenge. Mit ihrer hervorragenden Leistung bei der Spracherkennung und dem semantischen Verständnis belegten sie mit einer Genauigkeit von 71,97 % den ersten Platz im Teilbereich „Offline-Sprachassistent“. Ihr Beitragspapier „A Two-Stage System for Spoken Language Understanding“ wurde auch vom IEEE Institute of Electrical and Electronics Engineers
aufgenommen
Kollegen der KI-Technologieabteilung von Transsion teilten Forschungsergebnisse auf der ICASSP 2023
Derzeit sind Sprachassistenten hauptsächlich auf Mainstream-Sprachen ausgerichtet, decken jedoch weniger Nischensprachen, bestimmte Personengruppen und andere Untergruppen ab. TRANSSION zielt auf die lokalen Akzente und Minderheitensprachen von Nutzern in Schwellenländern wie Afrika und Südasien ab und hat ein lokalisiertes, kostengünstiges und qualitativ hochwertiges Korpusdatenproduktionssystem basierend auf massiven Mobiltelefonnutzerressourcen aufgebaut, um das Problem des Mangels zu lösen von Korpus und Datenknappheit in Minderheitensprachen. Auf dieser Grundlage entwickelt Transsion mehrsprachige Sprachassistenten, die sich an die Sprache und die kulturellen Besonderheiten lokaler Benutzer in Schwellenländern anpassen können und so lokalen Benutzern helfen, lokale Sprachen bequemer für die Sprachinteraktion mit Mobiltelefonen zu verwenden. Derzeit unterstützt die mehrsprachige Sprachassistententechnologie von Transsion Sprachinteraktion und Funktionen zum Verstehen natürlicher Sprache in Englisch, Französisch, Hausa, Arabisch, Suaheli und anderen Sprachen und deckt Kontaktanrufe, APP-Schnellstart, Musikwiedergabe und mehr als 100 Nutzungsszenarien wie WhatsApp-Nachrichten ab chatten
Um den Anforderungen lokaler Benutzer an Lebensdiensten gerecht zu werden, wird die mehrsprachige KI-Sprachassistententechnologie von Transsion weiterhin auf mehr Lebens-, Reise-, Studien- und Arbeitsszenarien angewendet, um ein sprachübergreifendes KI-Content-Service-Ökosystem aufzubauen, das intelligente Sprachdienste ermöglicht um in alle Aspekte des lokalen Lebens einzudringen und mehr Menschen zu helfen, die kleine Sprachen sprechen
KI+digitale menschliche Technologie stärkt das Multi-Szenario-Geschäft von Transsion
Mit der beschleunigten Entwicklung der interaktiven Intelligenztechnologie bewegen sich digitale Menschen von der technologischen Innovation zur industriellen Anwendung und spielen eine Rolle in den Bereichen Unterhaltung, Bildung, Medizin und anderen Bereichen. Transsion nutzt aktiv die Möglichkeiten der KI-Entwicklung, setzt digitale Humantechnologie im Voraus ein und hat vollständige Full-Link-Technologie und technische Selbstforschungskapazitäten etabliert. Das digitale menschliche System von Transsion umfasst reale 2D-Menschen und realistische 3D-Menschen. Es verfügt über Datenressourcen, die auf mehrsprachiger Spracherkennung, Sprachsynthese, Spracherkennung, natürlichem Sprachverständnis und digitalen menschlichen Fähigkeiten basieren Aussehen, intelligente Szeneninteraktion und andere Bereiche haben ihre eigenen lokalisierten Merkmale und Branchenführerschaft gebildet. Im Januar dieses Jahres erhielt das Digital-Human-System von Transsion die maßgebliche Standardzertifizierung im Bereich Digital-Human, ausgestellt von der China Academy of Information and Communications Technology. Dies ist auch das einzige digitale menschliche System eines chinesischen Mobiltelefonherstellers, das die Bewertung der China Academy of Information and Communications Technology bestanden hat und auf „interaktivem Dialog“ basiert.
Um den Simulationseffekt virtueller Bilder zu verbessern und realistische und ausdrucksstarke digitale menschliche Videos zu synthetisieren, wurde von der Transsion AI Technology Department unabhängig eine End-to-End-Technologie entwickelt. Im Prozess der Optimierung der Qualität der digitalen menschlichen Videoerzeugung wurde eine Methode vorgeschlagen Basierend auf dem Unet-Netzwerk, einem neuen technischen Framework mit dicht verbundener Unet-Struktur und Einführung der CLIP-Encoder-Struktur, die textsemantische Informationen verwendet, um den digitalen Animationseffekt des menschlichen Mundes zu verbessern. Gleichzeitig schlägt diese Technologie eine Wahrscheinlichkeitsdichtekarte der Gesichtsschlüsselpunkttechnologie vor, die die Modalinformationen des Modellnetzwerks erhöht und die Qualität der Modellgenerierung verbessert. Dieser technologische Durchbruch kann das Gesichtsbild digitaler Menschen realistischer und feiner machen und gleichzeitig die Konsistenz von Stimme und Lippenform verbessern, und seine Erzeugungswirkung hat ein wissenschaftlich führendes Niveau erreicht. Die zugehörige wissenschaftliche Arbeit „CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation“ wurde erfolgreich von der internationalen Multimedia-Flaggschiff-Wissenschaftskonferenz ICME 2023 (IEEE International Conference on Multimedia and Expo) angenommen.
Derzeit wird das digitale menschliche System von Transsion in zahlreichen Geschäftsszenarien häufig eingesetzt. Es wird nicht nur als intelligenter Einkaufsführer in Mobiltelefongeschäften im Ausland verwendet, um Benutzern eine Referenz für den Kauf von Mobiltelefonen zu geben, sondern kann auch intelligente Sprachassistentenfunktionen für verschiedene Smart-Terminal-Produkte bereitstellen, um das Benutzererlebnis zu verbessern. In Zukunft wird Transsion die „KI + Digital Human“-Technologie weiter nutzen, um Unternehmen in einer Vielzahl von Szenarien zu unterstützen, neue Geschäftsformen wie digitale menschliche Sprachassistenten und Kundendienstsysteme aktiv zu erkunden und den Benutzern ein neues intelligentes interaktives Erlebnis zu bieten
Fahren Sie mit dem Ausbau der zugrunde liegenden technischen Fähigkeiten der KI-Sprache fort
Mit der rasanten Entwicklung der KI-Technologie können nun durch Algorithmen generierte Audiodaten und Audiofälschungen gefälscht werden, was es für normale Benutzer sehr schwierig macht, Audiodaten von Authentizität zu unterscheiden. Um die Glaubwürdigkeit von Informationen aufrechtzuerhalten und die soziale Sicherheit zu gewährleisten, ist die Technologie zur Erkennung von Sprachfälschungen von entscheidender Bedeutung und hat sich zu einer neuen Forschungsrichtung auf dem Gebiet der künstlichen Intelligenz entwickelt. Transsion konzentriert sich auf die Geschäftsszenarien von Smart-Terminal-Produkten und orientiert sich an den lokalen Benutzerbedürfnissen. Es erweitert weiterhin seine zugrunde liegenden technischen Fähigkeiten für KI-Sprache, setzt neue Technologiebereiche ein und hat große Durchbrüche in der Technologie zur Erkennung von Sprachfälschungen erzielt.
Die zweite Audio Deepfake Detection Challenge ADD (The Second Audio Deepfake Detection Challenge) „Tampering Regional Positioning“, organisiert von der KI-Technologieabteilung von Transsion auf der IJCAI 2023 (32. Internationale gemeinsame Konferenz für künstliche Intelligenz) (Standort der Manipulationsregion), gewann den zweiten Platz Schiene. Während des Wettbewerbs entwickelte die KI-Technologieabteilung von Transsion unabhängig innovative KI-Modellalgorithmen und -technologien, die Sprachmanipulationen in Audiodaten genau identifizieren und lokalisieren können, wodurch die Originalität und Authentizität von digitalem Audio wirksam sichergestellt und eine Grundlage für KI-Anwendungen und Informationssicherheit geschaffen wird Ideen. Relevante wissenschaftliche Arbeiten wurden erfolgreich auf dieser IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)-Konferenz veröffentlicht.
Im nächsten Schritt wird die KI-Technologieabteilung von Transsion weiterhin die Anwendung der Voice-Deep-Fälschungserkennungstechnologie auf den Smart-Terminal-Produkten von Transsion erforschen, wie z. B. Anrufbetrugsprüfungen zum Schutz der Privatsphäre und Sicherheit der Benutzer usw., um die Benutzererfahrung kontinuierlich zu verbessern.
Transsion wird auch in Zukunft intensiv im Bereich der multimodalen KI-Sprachtechnologie arbeiten und sich dabei auf die Kerngeschäftsanforderungen „Mobiltelefone + mobile Internetdienste + Haushaltsgeräte und digitales Zubehör“ konzentrieren, kombiniert mit tiefen Einblicken in neue Märkte und lokale Verbraucher, um Benutzern intelligente Lebenserlebnisse zu bieten, die ihren Bedürfnissen entsprechen, bilden ein lokalisiertes KI-Content-Service-Ökosystem, das weiterhin mehrsprachige, multiszenariobezogene, personalisierte und intelligente Anwendungsanforderungen erfüllt.
Das obige ist der detaillierte Inhalt vonKultivieren Sie die multimodale KI-Sprachtechnologie intensiv, um ein lokalisiertes intelligentes interaktives Erlebnis zu erzielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!