ホームページ >テクノロジー周辺機器 >AI >Siri の「人気」はますます高まっていますが、スマートボイスには今後どのようなブレークスルーが起こるのでしょうか?

Siri の「人気」はますます高まっていますが、スマートボイスには今後どのようなブレークスルーが起こるのでしょうか?

王林
王林転載
2023-05-06 13:07:061179ブラウズ

人間とコンピューターの対話において、機械の聴覚をいかに良くするかは、近年の AI の分野で絶え間なく追求されている目標です。 2009年頃から深層学習モデルの応用が学術界から離れ始め、音声覚醒、認識、強化、合成に代表されるインテリジェント音声技術も徐々に成熟してきました。

初期の典型的な例は、2011 年の siri の誕生です。インテリジェント音声は、人間と機械の間のコミュニケーションとインタラクションの方法に新たな飛躍をもたらしました。 10 年以上の開発を経て、「Hey, Siri」スタイルのヒューマン マシンの質問と回答は、もはやモバイル端末デバイスに限定されず、数千の世帯に導入され、ホーム コンパニオン スマート スピーカー、天猫などのさまざまなシナリオで広く使用されています。便利なオンラインショッピング、会議時の同時通訳、旅行時のカー音声ナビアシスタントなどのGenie。

ますます多くのインターネット企業や上流メーカーがインテリジェント音声トラックを積極的に導入するにつれて、インテリジェント音声カスタマー サービス、会話型 AI アプリケーション、AI 仮想アシスタントなどの製品が大きな成功を収めています。さらなる品質の向上により、応答音声はより自然になり、質問の理解はより正確になり、独自の「小さな感情」が生まれます。

デジタル化の時代において、あらゆるものが相互接続される傾向は止められません。インテリジェント音声は、現在の人間とコンピューターの対話の主要なインターフェイスとして、実体経済との深い統合と衝突の時期にあります。応用シナリオのさらなる開発と拡張に伴い、話者の身元を識別する方法、方言を識別する方法、曖昧さを排除する方法など、多くの困難な問題も発生しており、これらは最新の研究のホットスポットです。

テクノロジーの成熟の背後には、実際のアプリケーションにおける革新的な能力や、より潜在的な進化の方向性など、何らかの可能性があることがよくあります。次の段階に目を向けると、インテリジェント音声テクノロジーにも新たな進化トレンドが見られるでしょう。例: 深く統合された AI 音声チップは、クラウド モデルの実行モデルに取って代わることができますか?マルチモーダル融合、教師なし学習、脳分野の相互統合に関する革新的な研究は、画期的な成果を達成できるでしょうか?見てみましょう。

それでは、大手企業におけるインテリジェント音声テクノロジーの実践的な検討において、実際の生産上でどのような問題が発生しているのでしょうか?どのように解決されましたか?どのような進歩があったのでしょうか?業界ではどのような新たな変化が起きましたか?次の開発トレンドは何ですか? 「AISummit グローバル人工知能テクノロジーカンファレンス」インテリジェント音声テクノロジー特別セッションは、より深い思考をもたらします。

8 月 7 日、51CTO が作成したインテリジェント音声に特化した「AISummit グローバル人工知能技術カンファレンス」が開催されます。

どのような特別なトピックに興味がありますか?

トピック 1: Zuoyebang 音声テクノロジーの実践

1. 音声認識テクノロジーの探求: エンドツーエンド、効率的な音声認識などの大規模な実用的なアプリケーション シナリオで音声認識テクノロジーを共有します。データの利用など、そしてプレフィックスオートマトンに基づくホットワード技術的ソリューションが提案されました。

2. 音声評価技術の実践: 音声の発音エラー修正技術に関して、宿題ヘルプの同時実行性の高いシナリオ、マルチタスクの知識伝達、およびマルチモーダル機能と組み合わせます。融合解が提案されたことは非常に重要であり、ノイズ環境下でのモデルの因子識別能力とエラー検出能力がある程度向上しました。音声評価の導入の難しさを考慮し、高性能なクラウド型統合評価技術を提案しました。

3. 音声合成技術のフレームワーク: 既存のデータ量の少ない音声技術のフレームワークをベースにした更なる改善について、Zuoyebang の考えと実践を共有します。

トピック 2: Feishu におけるバイト音声認識技術の応用

1. オフィス シナリオにおける音声認識技術の応用プロセス: オフィスの電子メール、インスタント メッセージング オフィスでの音声入力音声アシスタント、リアルタイム字幕、会議後の文字起こし。

2. ソリューション思考: 会議をインテリジェントにし、効率を向上させます。

3. 課題と機会: 音声認識タスクの課題、下流タスクによってもたらされる課題、および会議によって追加情報が得られます。

4. 主要なアルゴリズム作業の紹介 (エンドツーエンドの音声認識システム): トランスデューサーと CIF、動的および静的なホット ワード、コンテキスト認識。

トピック 3: 高レベル音声合成システム構築の実践

1. 高レベル音声合成システムの背景の紹介と問題点の分析。

2. 高レベル音声合成システムのデザイン思考と実装。

3. 実験による評価。

4. 今後の仕事の見通し。

トピック 4: SOUL ソーシャル シナリオにおけるインテリジェント音声テクノロジーの実用的な実装への道

1. SOUL ソーシャル メタバース シナリオにおけるエンドツーエンドの音声認識

2. マルチモーダル音声合成技術の構築ルート

3. 音声セキュリティや音声インタラクションなどのビジネスシーンへの応用

トピック5 : 58.com におけるエンドツーエンドの音声認識テクノロジーの探索と実践

1. 58.com における音声認識のアプリケーション シナリオ: AI インテリジェント音声アプリケーション、音声認識リンクの導入、課題と技術的ルート

2. WeNet に基づくモデル最適化作業: 半教師ありトレーニング、効率的な適合者、モデル圧縮

3. 終了-to-end 音声認識導入計画 : 自社開発エンジン アーキテクチャ、Wenet デコード サービス導入、ストリーミング/非ストリーミング デコード パフォーマンス テストにおける重要なゲストは何ですか?

?

1. Song Yang 氏、チーフ アルゴリズム エキスパート、インテリジェント ミドル オフィス責任者、Zuoyebang 特別プロデューサー

Song Yang 氏は Baidu で 7 年間勤務し、アルゴリズムの研究に従事しています。そして開発。 2015 年にインテリジェント ミドル オフィス部門の責任者として Zuoyebang に入社し、データ マイニング、NLP、音声などのミドル オフィス技術機能を同社のさまざまなビジネスに提供し、検索と Q&A、パーソナライズされた推奨事項、インテリジェントな品質検査、音声を担当してきました。評価、インテリジェントなサービスのスケジューリング、その他の指示。

2. Wang Qiangqiang、Zuoyebang 音声技術チーム長

Zuoyebang に入社する前は、Wang Qiangqiang は清華大学電子工学部で音声学の分野で働いていました。処理と機械 インテリジェント研究所は、音声認識アルゴリズムの実装と産業グレードのソリューションの構築を担当します。 2018 年に Zuoyebang に入社し、音声関連アルゴリズムの研究と実装を担当しており、Zuoyebang での音声認識、評価、合成、その他のアルゴリズムの実装を主導し、同社に音声テクノロジー ソリューションの完全なセットを提供してきました。

3. Zhang Jun、ByteDance AI Lab の音声認識アルゴリズム研究者

Zhang Jun は、音声認識や音声認識などの音声アルゴリズムの研究と応用に長年従事してきました。声起こし、経験豊富です。 2018 年に ByteDance AI Lab のインテリジェント音声チームに加わり、現在は主にインテリジェント オフィス、インテリジェント ハードウェア、インテリジェント カスタマー サービスの分野における音声テクノロジー ソリューションの構築を担当しています。

4. Tan Xu、Microsoft Research Asia 担当研究員

Tan Xu の研究分野には、深層学習、自然言語/音声/音楽、AI コンテンツ生成などが含まれます。 。開発された機械翻訳および音声合成システムは、複数のコンテストで優勝し、学術評価セットで人間のレベルに達しており、事前学習言語モデル MASS、音声合成モデル FastSpeech/NaturalSpeech、AI 音楽プロジェクト Muzic などの研究成果が世界中で広く注目されています。業界。

5. Liu Zhongliang、SOUL 音声アルゴリズム責任者

Liu Zhongliang は中国科学院大学院を修士号を取得して卒業し、現在は次の職に就いています。 SOUL の音声アルゴリズム責任者で、かつては Sogou AI インタラクション部門と Momo ビッグデータ部門に勤務していました。過去 10 年間、主に音声ウェイクアップ、音声認識、音声合成、オーディオ音楽理解などの音声技術システムの研究開発に従事しており、主に音声インタラクションや音声理解のビジネス シナリオで使用されています。入力方法、モバイル アシスタント、スマート ハードウェア、音声セキュリティなど、実装可能な最高の音声テクノロジーを作成することに尽力しています。

6. Zhou Wei 氏、58.com AI Lab の音声アルゴリズム部門責任者およびアルゴリズム アーキテクト

Zhou Wei 氏、音声アルゴリズム部門責任者および 58.com AI Lab のアルゴリズム58.com AI Lab アーキテクト、音声認識および音声合成アルゴリズムの開発を担当。 2016 年に中国科学院大学を修士号を取得して卒業、卒業​​後は対話型 AI 製品の起業に携わり、2018 年 5 月に 58.com に入社し、NLP の研究開発に参加インテリジェントな顧客サービス、インテリジェントなアウトバウンド コール、インテリジェントなライティングなどの AI プロジェクトのアルゴリズムを開発し、2019 年に音声アルゴリズムの方向性に焦点を当て始め、チームを率いて 58 都市の音声処理エンジンの音声アルゴリズムを 0 から 0 まで独自に開発しました。 1.

他にどんなエキサイティングなアクティビティがありますか?

AISummit グローバル人工知能テクノロジーカンファレンスでは、優れた AI テクノロジーの専門家による実用的なイノベーションの素晴らしい共有に加えて、参加者向けにプレサイトおよびサイト内でのインタラクティブな特典も豊富に用意されました。このイベントに参加して、技術力とネットワーク リソースを拡大し、同時にサプライズギフトを持ち帰ってください。

このイベントには、「負けるな」「運よく働こう」「賢く同じ目標を共有しよう」といった 4 つの興味深いインタラクティブ ゲームが含まれており、あなたを驚かせる素敵なプレゼントが必ずあります。では、伝説と謎に満ちた究極のグランプリは何でしょうか?テクノロジーが大好きなあなたがその秘密を現場で解き明かしてくれるのを待っています! (追記: 登録の予約が早ければ早いほど、グランプリを獲得する可能性が高くなるそうです。)

Siri の「人気」はますます高まっていますが、スマートボイスには今後どのようなブレークスルーが起こるのでしょうか?

すぐに予約をするにはどうすればよいですか?

クリックして AISummit Global Artificial Intelligence Technology Conference の公式 Web サイトにアクセスし、画面の指示に従って情報をすべて入力して送信すると、登録が完了します。 QR コードをスキャンしてカンファレンスの公式グループに参加し、抽選に参加すると、SONY スピーカー、Bingdundun、AI 技術書籍などの豪華なプレゼントや赤い封筒が当たります。

Siri の「人気」はますます高まっていますが、スマートボイスには今後どのようなブレークスルーが起こるのでしょうか?

以上がSiri の「人気」はますます高まっていますが、スマートボイスには今後どのようなブレークスルーが起こるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。