Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Siri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?

Siri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?

王林
王林nach vorne
2023-05-06 13:07:061158Durchsuche

Für die Mensch-Computer-Interaktion war es in den letzten Jahren ein unermüdliches Ziel im Bereich der KI, Maschinen ein gutes Gehör zu verschaffen. Um das Jahr 2009 begannen Deep-Learning-Modellanwendungen die akademische Welt zu verlassen, und auch die intelligente Sprachtechnologie, die durch Spracherweckung, -erkennung, -verbesserung und -synthese repräsentiert wird, entwickelte sich allmählich weiter.

Ein typisches frühes Beispiel ist die Geburt von Siri im Jahr 2011. Intelligente Stimme ist zu einem neuen Sprung in der Art der Kommunikation und Interaktion zwischen Menschen und Maschinen geworden. Nach mehr als zehn Jahren Entwicklungszeit ist die Mensch-Maschine-Frage und Antwort im „Hey, Siri“-Stil nicht mehr auf mobile Endgeräte beschränkt, sondern hat Eingang in Tausende von Haushalten gefunden und ist in verschiedenen Szenarien weit verbreitet: Home Companion Smart Speakers, Tmall Genie für bequemes Online-Shopping, Simultanübersetzung bei Besprechungen, Sprachnavigationsassistenten für Autos auf Reisen usw.

Da immer mehr Internetunternehmen und Upstream-Hersteller aktiv die intelligente Sprachsteuerung einsetzen, haben Produkte wie intelligenter Sprachkundendienst, Konversations-KI-Anwendungen und virtuelle KI-Assistenten weitere Qualitätsverbesserungen erzielt, und die Reaktion auf Sprache ist besser natürlich, verstehen Sie das Problem genauer und haben Sie Ihre eigenen „kleinen Gefühle“.

Im Zeitalter der Digitalisierung ist der Trend der Vernetzung von allem unaufhaltsam. Als Schlüsselschnittstelle für die aktuelle Mensch-Computer-Interaktion befindet sich intelligente Stimme in einer Phase tiefer Integration und Kollision mit der realen Wirtschaft. Mit der Weiterentwicklung und Erweiterung von Anwendungsszenarien haben wir auch viele herausfordernde Probleme gesehen, wie z. B. die Identifizierung der Identität des Sprechers, die Identifizierung von Dialekten, die Beseitigung von Mehrdeutigkeiten usw., die die neuesten Forschungsschwerpunkte darstellen.

Hinter der Reife einer Technologie stecken oft einige Potenziale, darunter ihre Fähigkeit zur Innovation in praktischen Anwendungen und ihre potenzielle Entwicklungsrichtung. Mit Blick auf die nächste Stufe wird es auch bei der intelligenten Sprachtechnologie neue Entwicklungstrends geben, zum Beispiel: Können tief integrierte KI-Sprachchips das Cloud-Modell ersetzen? Können innovative Forschungen zur multimodalen Fusion, zum unbeaufsichtigten Lernen und zur übergreifenden Integration von Gehirndisziplinen bahnbrechende Ergebnisse erzielen? Wir werden sehen.

Welche tatsächlichen Produktionsprobleme sind bei der praktischen Erforschung der intelligenten Sprachtechnologie in großen Unternehmen aufgetreten? Wie wurde es gelöst? Welche Fortschritte wurden erzielt? Welche neuen Veränderungen haben in der Branche stattgefunden? Was sind die nächsten Entwicklungstrends? Die Sondersitzung „AISummit Global Artificial Intelligence Technology Conference“ zur intelligenten Sprachtechnologie bringt Sie in die Tiefe!

Am 7. August findet die von 51CTO ins Leben gerufene Sonderveranstaltung „AISummit Global Artificial Intelligence Technology Conference“ für intelligente Stimme statt!

Welche Themen interessieren dich in der Sondersitzung?

Thema 1: Praxis der Zuoyebang-Sprachtechnologie

1. Erforschung der Spracherkennungstechnologie: Teilen Sie die Spracherkennungstechnologie in groß angelegten praktischen Anwendungsszenarien wie der effizienten End-to-End-Nutzung von Daten und schlagen Sie darauf basierende heiße Wörter vor Präfixautomaten Technische Lösungen.

2. Praxis der Sprachbewertungstechnologie: In Bezug auf die Technologie zur Korrektur von Sprachaussprachefehlern wird in Kombination mit dem Szenario mit hoher Parallelität des Hausaufgabenhelfers ein Multitasking-Wissenstransfer- und Multimodal-Feature-Fusion-Schema vorgeschlagen, das großartig ist Verbessert die Faktordifferenzierungsfähigkeiten und Fehlererkennungsfähigkeiten in verrauschten Umgebungen. Angesichts der Schwierigkeit bei der Implementierung der Sprachbewertung wurde eine leistungsstarke cloudbasierte integrierte Bewertungstechnologie vorgeschlagen.

3. Sprachsynthese-Technologie-Framework: Teilen Sie das Denken und die Praxis weiterer Verbesserungen basierend auf dem vorhandenen Sprachtechnologie-Framework für kleine Datenmengen.

Thema 2: Anwendung der Byte-Spracherkennungstechnologie in Feishu

1. Anwendungsprozess der Spracherkennungstechnologie in Büroszenarien: Spracheingabe in Büro-E-Mails, Instant Messaging, Büro-Sprachassistent, Echtzeit-Untertitel und Konferenzen. Später transkribiert .

2. Lösungsdenken: Meetings intelligent gestalten und die Effizienz verbessern.

3. Herausforderungen und Chancen: Herausforderungen durch Spracherkennungsaufgaben, Herausforderungen durch nachgelagerte Aufgaben und Besprechungen liefern zusätzliche Informationen.

4. Einführung in die Arbeit mit Schlüsselalgorithmen (End-to-End-Spracherkennungssystem): Transducer & CIF, dynamische + statische Hotwords, kontextbewusst.

Thema 3: Praxis des Aufbaus eines Sprachsynthesesystems auf hoher Ebene

1 Hintergrundeinführung und Problemanalyse von Sprachsynthesesystemen auf hoher Ebene.

2. Designdenken und Implementierung eines Sprachsynthesesystems auf hoher Ebene.

3. Experimentelle Bewertung.

4. Zukünftige Arbeitsaussichten.

Thema 4: Der Weg zur praktischen Umsetzung der intelligenten Sprachtechnologie in sozialen SOUL-Szenarien

1. End-to-End-Spracherkennung in SOUL-sozialen Metaversum-Szenarien

2. Konstruktionsroute der multimodalen Sprachsynthesetechnologie

3. Anwendung in Geschäftsszenarien wie Sprachsicherheit und Sprachinteraktion

Thema 5: Erforschung und Praxis der End-to-End-Spracherkennungstechnologie in 58.com

1. Anwendungsszenarien der Spracherkennung in 58 .com: KI-intelligente Stimme Einführung in Anwendungen, Spracherkennungslinks, Herausforderungen und technische Routen

2 Modelloptimierungsarbeit basierend auf WeNet: halbüberwachtes Training, Efficient Conformer, Modellkomprimierung

3 -End-Spracherkennungs-Bereitstellungsplan: automatisch. Wer sind die wichtigen Gäste, die sich mit der Engine-Architektur, der Bereitstellung des Wenet-Dekodierungsdienstes und den Leistungstests für die Streaming-/Nicht-Streaming-Dekodierung befassen werden

?

1. Song Yang, Chefalgorithmusexperte, Leiter des Intelligent Middle Office und Spezialproduzent von Zuoyebang

Song Yang arbeitet seit 7 Jahren bei Baidu und beschäftigt sich mit der Algorithmenforschung und -entwicklung. Kam 2015 als Leiter der intelligenten Middle-Office-Abteilung zu Zuoyebang. Er stellt den verschiedenen Geschäftsbereichen des Unternehmens technische Funktionen für das Middle-Office zur Verfügung. Er war für Suche und Fragen und Antworten, personalisierte Empfehlungen und intelligente Qualitätsprüfung verantwortlich. Sprachauswertung, intelligentes Service-Dispatching und andere Richtungen.

2. Wang Qiangqiang, Leiter des Sprachtechnologieteams von Zuoyebang

Bevor Wang Qiangqiang zu Zuoyebang kam, arbeitete er im Labor für Sprachverarbeitung und maschinelle Intelligenz der Abteilung für Elektrotechnik der Tsinghua-Universität und war für die Implementierung von Sprache verantwortlich Erkennungsalgorithmen und die Konstruktion von Lösungen auf industrieller Ebene. Kam 2018 zu Zuoyebang und ist für die Forschung und Implementierung sprachbezogener Algorithmen verantwortlich. Er leitete die Implementierung von Spracherkennung, -bewertung, -synthese und anderen Algorithmen in Zuoyebang und versorgte das Unternehmen mit einem kompletten Satz an Sprachtechnologielösungen.

3. Zhang Jun, Forscher für Spracherkennungsalgorithmen am ByteDance AI Lab

Zhang Jun beschäftigt sich seit langem mit der Erforschung und Anwendung von Sprachalgorithmen wie Spracherkennung und Stimmaktivierung und verfügt über umfangreiche Erfahrung. Im Jahr 2018 trat er dem intelligenten Sprachteam des ByteDance AI Lab bei und ist derzeit hauptsächlich für den Aufbau von Sprachtechnologielösungen in den Bereichen intelligentes Büro, intelligente Hardware und intelligenter Kundenservice verantwortlich.

4. Tan Xu, leitender Forscher bei Microsoft Research Asia

Tan Das entwickelte maschinelle Übersetzungs- und Sprachsynthesesystem hat mehrere Wettbewerbsmeisterschaften gewonnen und in akademischen Bewertungssätzen menschliches Niveau erreicht. Forschungsarbeiten wie das Pre-Training-Sprachmodell MASS, das Sprachsynthesemodell FastSpeech/NaturalSpeech und das KI-Musikprojekt Muzic haben große Aufmerksamkeit erhalten die Branche.

5. Liu Zhongliang, Leiter des Sprachalgorithmus bei SOUL

Liu Zhongliang hat einen Masterabschluss an der Graduiertenschule der Chinesischen Akademie der Wissenschaften in der KI-Interaktionsabteilung von Sogou und der Big-Data-Abteilung von Momo. In den letzten 10 Jahren beschäftigte er sich hauptsächlich mit der Forschung und Entwicklung von Sprachtechnologiesystemen wie Sprachaktivierung, Spracherkennung, Sprachsynthese und Audio-Musikverständnis. Diese werden hauptsächlich in Geschäftsszenarien für Sprachinteraktion und Sprachverständnis eingesetzt wie Eingabemethoden, mobile Assistenten, intelligente Hardware und Sprachsicherheit. Er ist bestrebt, die bestmögliche Sprachtechnologie zu schaffen.

6. Zhou Wei, Leiter der Abteilung für Sprachalgorithmen und Algorithmusarchitekt von 58.com AI Lab

Zhou Wei, Leiter der Abteilung für Sprachalgorithmen und Algorithmusarchitekt von 58.com AI Lab, ist für die Forschung verantwortlich und Entwicklung von Spracherkennungs- und Sprachsynthesealgorithmen. 2016 schloss er sein Masterstudium an der Universität der Chinesischen Akademie der Wissenschaften ab. Nach seinem Abschluss beteiligte er sich am Unternehmertum in Richtung Konversations-KI-Produkten. Im Mai 2018 wechselte er zu 58.com und beteiligte sich an der Forschung und Entwicklung von NLP Algorithmen für KI-Projekte wie intelligenter Kundenservice, intelligente ausgehende Anrufe und intelligentes Schreiben. Im Jahr 2019 begann er, sich auf die Richtung von Sprachalgorithmen zu konzentrieren und leitete das Team dazu, den Sprachalgorithmus in der 58-Städte-Sprachverarbeitungs-Engine unabhängig zu entwickeln 1.

Welche weiteren spannenden Aktivitäten gibt es?

Neben dem wunderbaren Austausch praktischer Innovationen durch wunderbare KI-Technologieexperten hat die AISummit Global Artificial Intelligence Technology Conference auch eine Fülle interaktiver Vor- und In-Site-Vorteile für die Teilnehmer vorbereitet. Nehmen Sie an dieser Veranstaltung teil, erweitern Sie Ihre technischen Fähigkeiten und Netzwerkressourcen und nehmen Sie gleichzeitig Überraschungsgeschenke mit nach Hause!

Die Veranstaltung umfasst vier interessante interaktive Spiele wie „Don't Give in“, „Work Lucky“ und „Smart People“. Es wird immer ein exquisites Geschenk geben, das Sie überraschen wird! Preis? Wolltuch? Wir freuen uns darauf, dass Technikbegeisterte vorbeikommen und das Geheimnis vor Ort lüften! (PS: Ich habe gehört, dass die Chance auf den Hauptpreis umso höher ist, je früher man einen Termin zur Anmeldung vereinbart!)

Siri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?

Wie vereinbare ich schnell einen Termin?

Klicken Sie hier, um die offizielle Website der ​​AISummit Global Artificial Intelligence Technology Conference​​ zu betreten. Befolgen Sie die Anweisungen zum vollständigen Ausfüllen und übermitteln Sie die Informationen, um die Registrierung abzuschließen.

Scannen Sie den QR-Code, um der offiziellen Gruppe der Konferenz beizutreten, an der Lotterie teilzunehmen und exquisite Geschenke wie SONY-Lautsprecher, Bingdundun- und KI-Technologiebücher sowie rote Umschläge zu gewinnen.

Siri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?

Siri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?

Das obige ist der detaillierte Inhalt vonSiri wird immer „populärer“ Welche Durchbrüche wird es in Zukunft im Bereich Smart Voice geben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen