Heim >Technologie-Peripheriegeräte >KI >Drei große Herausforderungen der Sprachtechnologie mit künstlicher Intelligenz
Praktiker der künstlichen Intelligenz stoßen bei der Speech-to-Speech-Technologie häufig auf drei gemeinsame Hindernisse.
Die Aussicht, dass künstliche Intelligenz (KI) menschenähnliche Daten generieren könnte, wird seit Jahrzehnten diskutiert. Datenwissenschaftler haben dieses Problem jedoch mit begrenztem Erfolg angegangen. Die genaue Identifizierung effektiver Strategien zur Schaffung solcher Systeme stellt Herausforderungen dar, die von technischen bis zu ethischen Aspekten und allem dazwischen reichen. Allerdings hat sich die generative KI als ein Lichtblick herausgestellt, den man im Auge behalten sollte.
Generative KI ermöglicht es Maschinen im Grunde, mithilfe von Elementen wie Audiodateien, Text und Bildern Inhalte von der Sprache über das Schreiben bis hin zur Kunst zu generieren. Das Technologie-Investmentunternehmen Sequoia Capita sagte: „Generative KI wird nicht nur schneller und billiger, sondern in einigen Fällen auch besser sein als die von Menschen geschaffene künstliche Intelligenz.“
Insbesondere beim maschinellen Lernen, das auf generativer Sprachtechnologie basiert, haben die jüngsten Fortschritte große Fortschritte gemacht , aber die Menschen haben noch einen langen Weg vor sich. Tatsächlich kommt die Sprachkomprimierung in Apps vor, auf die sich die Menschen stark verlassen, wie Zoom und Teams, die noch immer auf Technologien aus den 1980er und 1990er Jahren basieren. Obwohl Sprache ein unbegrenztes Potenzial für die Sprachtechnologie bietet, ist es wichtig, die Herausforderungen und Mängel zu bewerten, die der generativen KI-Entwicklung im Wege stehen.
Hier sind drei häufige Hindernisse, mit denen KI-Praktiker konfrontiert sind, wenn es um Speech-to-Speech-Technologie geht.
Der wichtigste Teil des besten Dialogs ist wohl, dass er verständlich ist. Bei der Speech-to-Speech-Technologie besteht das Ziel darin, wie ein Mensch zu klingen. Beispielsweise sind die roboterhaften Intonationen von Siri und Alexa maschinenartig und nicht immer klar. Aus mehreren Gründen ist dies mit künstlicher Intelligenz schwer zu erreichen, doch die Nuancen der menschlichen Sprache spielen eine große Rolle.
Das Gesetz von Merabian kann dabei helfen, dies zu erklären. Menschliche Gespräche können in drei Teile unterteilt werden: 55 % Mimik, 38 % Tonfall und nur 7 % Text. Maschinelles Verständnis beruht auf Wörtern oder Inhalten, um zu funktionieren. Erst die jüngsten Fortschritte in der Verarbeitung natürlicher Sprache (NLP) haben es möglich gemacht, KI-Modelle basierend auf Stimmung, Emotionen, Klangfarbe und anderen wichtigen (aber nicht unbedingt gesprochenen) Aspekten der Sprache zu trainieren. Noch schwieriger wird es, wenn Sie sich nur mit Audio und nicht mit Bildmaterial befassen, da nicht mehr als die Hälfte des Verständnisses über Gesichtsausdrücke erfolgt.
Eine umfassende Analyse durch künstliche Intelligenz kann einige Zeit dauern, aber bei der Voice-to-Voice-Kommunikation ist die Echtzeit der einzige Zeitpunkt, der zählt. Die Sprachumwandlung muss beim Sprechen sofort erfolgen. Außerdem muss es genau sein, was für eine Maschine, wie Sie sich vorstellen können, keine leichte Aufgabe ist.
Die Notwendigkeit von Echtzeit variiert je nach Branche. Beispielsweise ist einem Content-Ersteller, der Podcasts erstellt, möglicherweise mehr Wert auf die Klangqualität als auf die Sprachkonvertierung in Echtzeit gelegt. Aber in einer Branche wie dem Kundenservice ist Zeit von entscheidender Bedeutung. Wenn Callcenter-Agenten sprachgestützte KI verwenden, um auf Anrufer zu reagieren, müssen sie möglicherweise einige Abstriche bei der Qualität machen. Dennoch ist Zeit von entscheidender Bedeutung, um ein positives Erlebnis zu bieten.
Damit die Voice-to-Speech-Technologie ihr Potenzial entfalten kann, muss sie eine Vielzahl von Akzenten, Sprachen und Dialekten unterstützen und für alle verfügbar sein – nicht nur für bestimmte Regionen oder Märkte. Dies erfordert die Beherrschung der spezifischen Anwendung der Technologie sowie zahlreiche Abstimmungs- und Schulungsmaßnahmen für eine effektive Skalierung.
Neue Technologielösungen sind keine Einheitslösung; alle Benutzer benötigen Tausende von Architekturen, um diese KI-Infrastruktur zu unterstützen. Benutzer sollten außerdem mit konsistenten Tests von Modellen rechnen. Das ist nicht neu: Alle klassischen Herausforderungen des maschinellen Lernens gelten auch für den Bereich der generativen KI.
Wie können die Menschen also anfangen, diese Probleme zu lösen, damit sie beginnen, den Wert der Speech-to-Speech-Technologie zu erkennen, wenn man sie Schritt für Schritt aufschlüsselt, ist es glücklicherweise weniger beängstigend. Zuerst müssen Sie das Problem meistern. Vorhin habe ich das Beispiel eines Callcenters und eines Content-Erstellers genannt. Stellen Sie sicher, dass Sie über die Anwendungsfälle und gewünschten Ergebnisse nachdenken und von dort aus fortfahren.
Zweitens stellen Sie sicher, dass Ihre Organisation über die richtige Architektur und die richtigen Algorithmen verfügt. Aber bevor das passiert, stellen Sie sicher, dass Ihr Unternehmen über die richtigen Daten verfügt. Die Datenqualität ist wichtig, insbesondere wenn es um etwas so Sensibles wie die menschliche Sprache und Sprache geht. Wenn Ihre Anwendung schließlich eine Sprachkonvertierung in Echtzeit erfordert, stellen Sie sicher, dass diese Funktion unterstützt wird. Letztendlich möchte niemand mit einem Roboter sprechen.
Während mittlerweile ethische Bedenken hinsichtlich der Generierung von KI-Deepfakes, der Einwilligung und der angemessenen Offenlegung auftauchen, ist es wichtig, zunächst die grundlegenden Probleme zu verstehen und anzugehen. Die Voice-to-Speech-Technologie hat das Potenzial, die Art und Weise, wie wir uns gegenseitig verstehen, zu revolutionieren und Möglichkeiten für Innovationen zu schaffen, die Menschen zusammenbringen. Doch um dieses Ziel zu erreichen, müssen zunächst große Herausforderungen bewältigt werden. ?
Das obige ist der detaillierte Inhalt vonDrei große Herausforderungen der Sprachtechnologie mit künstlicher Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!