ホームページ >テクノロジー周辺機器 >AI >音声認識を開発する方法
深層学習テクノロジーの使用による自然言語の深い理解は、常に人々の注目を集めてきました。音楽を聴くために調べる必要がなく、電気をつけるために手を使う必要がなく、エアコンはあなたの声を理解します...これらのシーンは多くの映画やテレビで放映されてきました。それらは多くの人々の心の中にある「スマートライフ」の概念も表しています。これに基づいて、人工知能開発の高まりの中で、自然言語処理は大手企業や科学研究機関にとっての戦場となっています。
現在、音声インタラクション トラックには、インターネット大手、有名なハードウェア企業、電子商取引プラットフォーム、伝統的な家電メーカー、さまざまな人工知能の新興企業が結集しています。 2017年、スマートスピーカーに代表される音声インタラクション製品の国内外での人気により、音声インタラクション技術の応用と開発が大きく刺激されました。
最近、最も人気のあるスマート ホーム ハードウェアは間違いなく Xiaomi AI スピーカーです。この製品は発売されると市場に大きな反響を呼び、「最高のインタラクティブ体験を実現するスピーカー」「スマートスピーカー業界の責任者」「現在“最も人気のある”スマートハードウェア」と多くの人から称賛されました。メディア... 編集者の意見では、Xiaomi AI スピーカーは確かに優れていますが、自慢できるほどではありません。私の周囲の人々の具体的な使用経験から判断すると、その音声認識機能は特に優れているわけではなく、現在市場に流通している主流の類似製品とそれほど変わりません。その最大の利点はエコロジーチェーンにあり、Xiaomi AI スピーカーを通じて、Xiaomi テーブルランプ、Xiaomi 掃除ロボット、Xiaomi フロアファン、その他の補助家具機器を制御できます。これにより人々のスマートライフが一歩近づくことは間違いありません。
自動車やスマートモバイルデバイスの分野では、音声対話機能が非常に普及しています。運転中は両手が自由にできないことが多く、手を使って携帯電話を操作すべきではありませんが、現在、車内音声は必需品となっており、車両のインターネットの標準機能となっています。スマート相互接続と無人運転が熱狂的に宣伝されている現在の時代では、音声認識などのブラックテクノロジーを搭載していない新車は恥ずかしすぎて使用できないように思えます。フォードの SYNC システムは、携帯電話やデジタル メディア プレーヤーに特別に装備されたフォードの車載マルチメディア通信およびエンターテイメント システムであり、現在、車載システムでの音声対話技術の使用の成功例であり、複数のシリーズのフォード車で広く使用されています。インターネット大手の Apple が iPhone 4S でインテリジェント音声アシスタント アプリケーション Siri をリリースした後、Google も Android スマートフォン オペレーティング システムで GoogleNow インテリジェント音声検索と質問と回答のサービスを開始しました。Microsoft も Windows Phone に音声技術を適用し、Samsung も同様にサービスを開始しましたビクスビー。
金融分野。音声認識テクノロジーも重要な役割を果たします。最近、中国建設銀行は上海市黄浦区にロボットが顧客にサービスを提供する自動化サービス支店を開設した。このロボットには顔スキャン認識ソフトウェアが搭載されており、顧客のほとんどの質問に答え、一般の大手銀行のビジネスニーズのほとんどを解決できるほか、個別のニーズを満たす人間支援サービスやその他の専門サービスも備えています。顧客の応対はロボットが行い、音声認識機能を利用して人とコミュニケーションを取り、顧客の質問に答えます。また、口座開設、送金、投資など、人間のサービスができることのほとんどを完了することもできます。
さらに、新しい小売分野では、インテリジェント音声テクノロジーの応用も継続的に拡大しています。例えば、2017年12月18日、iFlytekとRed Star Macallineは戦略的提携計画を発表し、今後、iFlytekが開発したインテリジェントショッピングガイドロボット「メイメイ」が全国のRed Star Macalline店舗で発売される予定だ。
音声対話に加えて、音声からテキストへの変換も、現在の音声認識テクノロジで注目されているトピックです。当初はジャーナリストに愛用されていた機能ですが、この機能を利用してインタビュー原稿やスピーチ原稿を整理することで作業効率が大幅に向上しますが、現在では一般の人にも受け入れられ、高齢者から若者まで利用できるようになりました。怠惰と癌に苦しんでいます。この機能は入力の代わりになります。
今日、資本の流入、政策支援、度重なる市場拡大により、音声テクノロジーはますます成熟しており、世界の音声市場もアプリケーション実装の黄金期を迎えています。関連統計によると、2016年のインテリジェント音声産業の規模は60億元の水準に近づき、2017年には前年比約69%増の100億元を超える見通しだ。
音声認識が多くの分野で普及しているのとは対照的に、音声認識技術の開発は非常に遅れており、この状況下で音声認識技術は多くの課題に直面しています。実際のアプリケーションでの問題。
現在、多くの企業は音声認識率が 97%、あるいは 98% に達していると述べていますが、実際のアプリケーションでは満足のいく結果が得られません。より説得力のある例を挙げると、IBM.Jワトソン研究所が開発した中国語音声認識システムは、米国のDARPA主催のコンテストで3年連続1位となっており、そのシステムがCCTVの「ニュースネットワーク」番組を認識したところ、そのシステムはエラー率は 5% 未満でしたが、他のコンテンツを識別すると、その差は非常に大きくなります。実際のアプリケーションでは、認識率は主に次の要因によって影響されます。
中国語の音声認識では、方言やアクセントにより認識率が低下します。
公共の場所での強い騒音は認識効果に大きな影響を与えます。実験室環境であっても、キーボードの入力やマイクの移動は周囲の騒音となります。
中断質問。人が話しているときに一時停止すると、機械は文脈をうまく接続して意味を滑らかにすることができません。
ここで「口頭言語」の問題も出てきます。これには、自然言語理解と音響の両方が含まれます。音声認識技術の最終目標は、「人間とコンピュータの会話」を「人間と人間の会話」と同じように自然に行えるようにすることですが、一度ユーザーが人間と話すのと同じように音声入力を行うと、 、話し言葉の文法は標準化されておらず、語順の異常により意味の分析と理解が困難になります。
以前、アクセントや新しい語彙などの問題は、音声認識技術の実際の応用におけるデータ収集によって解決できると指摘する人もいました。データ量が増加すると、この問題は解決されます。
「中断」などのその他の問題には、DNN、CNN、BLSTM (双方向長短期記憶ニューラル ネットワーク) などのさまざまな深層学習モデルと、それらを段階的に解決するための新しいアルゴリズムが必要です。
テクノロジーの使用には反復プロセスが必要になることが多く、まずオンラインにし、次にシーン内のデータを収集してモデルを評価、最適化し、ユーザー エクスペリエンスを向上させる必要があります。最良の結果を得るには、数回の反復が必要です。他の AI テクノロジーも同様です。今日の AI テクノロジーのユーザーの多くは、テクノロジーの機能を簡単に理想化し、導入したらすぐに結果が得られるはずだと感じています。実際の結果が満足のいかないものであることが分かると、大きなギャップを感じ、失望し、諦めてしまいます。確かにインテリジェント音声技術はGF応用のレベルに達していますが、実際に導入する際には、どのような困難が予想されるのかを十分に理解し、持久戦に備える必要があります。
過去 5 ~ 10 年で、音声認識システムの応用はさらに拡大すると予測できます。広く普及している。さまざまな音声認識システム製品が市場に登場します。また、人々はさまざまな認識システムに適応するために自分の音声パターンを適応させるでしょう。人間と同等の音声認識システムを短期間に構築することは不可能であり、その構築は依然として人類にとって大きな課題であり、私たちは音声認識システムを改善する方向に一歩ずつ前進するしかありません。人間と同じくらい完全な音声認識システムがいつ構築されるかを予測することは困難です。 1960 年代と同じように、今日の VLSI テクノロジーが社会にこれほど大きな影響を与えるとは誰が予想できたでしょうか。
以上が音声認識を開発する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。