検索

音声認識を開発する方法

Apr 12, 2023 pm 05:01 PM
音声認識

深層学習テクノロジーの使用による自然言語の深い理解は、常に人々の注目を集めてきました。音楽を聴くために調べる必要がなく、電気をつけるために手を使う必要がなく、エアコンはあなたの声を理解します...これらのシーンは多くの映画やテレビで放映されてきました。それらは多くの人々の心の中にある「スマートライフ」の概念も表しています。これに基づいて、人工知能開発の高まりの中で、自然言語処理は大手企業や科学研究機関にとっての戦場となっています。

音声認識を開発する方法

現在、音声インタラクション トラックには、インターネット大手、有名なハードウェア企業、電子商取引プラットフォーム、伝統的な家電メーカー、さまざまな人工知能の新興企業が結集しています。 2017年、スマートスピーカーに代表される音声インタラクション製品の国内外での人気により、音声インタラクション技術の応用と開発が大きく刺激されました。

複数の分野でのアプリケーション

最近、最も人気のあるスマート ホーム ハードウェアは間違いなく Xiaomi AI スピーカーです。この製品は発売されると市場に大きな反響を呼び、「最高のインタラクティブ体験を実現するスピーカー」「スマートスピーカー業界の責任者」「現在“最も人気のある”スマートハードウェア」と多くの人から称賛されました。メディア... 編集者の意見では、Xiaomi AI スピーカーは確かに優れていますが、自慢できるほどではありません。私の周囲の人々の具体的な使用経験から判断すると、その音声認識機能は特に優れているわけではなく、現在市場に流通している主流の類似製品とそれほど変わりません。その最大の利点はエコロジーチェーンにあり、Xiaomi AI スピーカーを通じて、Xiaomi テーブルランプ、Xiaomi 掃除ロボット、Xiaomi フロアファン、その他の補助家具機器を制御できます。これにより人々のスマートライフが一歩近づくことは間違いありません。

自動車やスマートモバイルデバイスの分野では、音声対話機能が非常に普及しています。運転中は両手が自由にできないことが多く、手を使って携帯電話を操作すべきではありませんが、現在、車内音声は必需品となっており、車両のインターネットの標準機能となっています。スマート相互接続と無人運転が熱狂的に宣伝されている現在の時代では、音声認識などのブラックテクノロジーを搭載していない新車は恥ずかしすぎて使用できないように思えます。フォードの SYNC システムは、携帯電話やデジタル メディア プレーヤーに特別に装備されたフォードの車載マルチメディア通信およびエンターテイメント システムであり、現在、車載システムでの音声対話技術の使用の成功例であり、複数のシリーズのフォード車で広く使用されています。インターネット大手の Apple が iPhone 4S でインテリジェント音声アシスタント アプリケーション Siri をリリースした後、Google も Android スマートフォン オペレーティング システムで GoogleNow インテリジェント音声検索と質問と回答のサービスを開始しました。Microsoft も Windows Phone に音声技術を適用し、Samsung も同様にサービスを開始しましたビクスビー。

金融分野。音声認識テクノロジーも重要な役割を果たします。最近、中国建設銀行は上海市黄浦区にロボットが顧客にサービスを提供する自動化サービス支店を開設した。このロボットには顔スキャン認識ソフトウェアが搭載されており、顧客のほとんどの質問に答え、一般の大手銀行のビジネスニーズのほとんどを解決できるほか、個別のニーズを満たす人間支援サービスやその他の専門サービスも備えています。顧客の応対はロボットが行い、音声認識機能を利用して人とコミュニケーションを取り、顧客の質問に答えます。また、口座開設、送金、投資など、人間のサービスができることのほとんどを完了することもできます。

さらに、新しい小売分野では、インテリジェント音声テクノロジーの応用も継続的に拡大しています。例えば、2017年12月18日、iFlytekとRed Star Macallineは戦略的提携計画を発表し、今後、iFlytekが開発したインテリジェントショッピングガイドロボット「メイメイ」が全国のRed Star Macalline店舗で発売される予定だ。

音声対話に加えて、音声からテキストへの変換も、現在の音声認識テクノロジで注目されているトピックです。当初はジャーナリストに愛用されていた機能ですが、この機能を利用してインタビュー原稿やスピーチ原稿を整理することで作業効率が大幅に向上しますが、現在では一般の人にも受け入れられ、高齢者から若者まで利用できるようになりました。怠惰と癌に苦しんでいます。この機能は入力の代わりになります。

今日、資本の流入、政策支援、度重なる市場拡大により、音声テクノロジーはますます成熟しており、世界の音声市場もアプリケーション実装の黄金期を迎えています。関連統計によると、2016年のインテリジェント音声産業の規模は60億元の水準に近づき、2017年には前年比約69%増の100億元を超える見通しだ。

現在の技術状況は満足できるものではありません

音声認識が多くの分野で普及しているのとは対照的に、音声認識技術の開発は非常に遅れており、この状況下で音声認識技術は多くの課題に直面しています。実際のアプリケーションでの問題。

現在、多くの企業は音声認識率が 97%、あるいは 98% に達していると述べていますが、実際のアプリケーションでは満足のいく結果が得られません。より説得力のある例を挙げると、IBM.Jワトソン研究所が開発した中国語音声認識システムは、米国のDARPA主催のコンテストで3年連続1位となっており、そのシステムがCCTVの「ニュースネットワーク」番組を認識したところ、そのシステムはエラー率は 5% 未満でしたが、他のコンテンツを識別すると、その差は非常に大きくなります。実際のアプリケーションでは、認識率は主に次の要因によって影響されます。

中国語の音声認識では、方言やアクセントにより認識率が低下します。

公共の場所での強い騒音は認識効果に大きな影響を与えます。実験室環境であっても、キーボードの入力やマイクの移動は周囲の騒音となります。

中断質問。人が話しているときに一時停止すると、機械は文脈をうまく接続して意味を滑らかにすることができません。

ここで「口頭言語」の問題も出てきます。これには、自然言語理解と音響の両方が含まれます。音声認識技術の最終目標は、「人間とコンピュータの会話」を「人間と人間の会話」と同じように自然に行えるようにすることですが、一度ユーザーが人間と話すのと同じように音声入力を行うと、 、話し言葉の文法は標準化されておらず、語順の異常により意味の分析と理解が困難になります。

音声認識の技術的反復

以前、アクセントや新しい語彙などの問題は、音声認識技術の実際の応用におけるデータ収集によって解決できると指摘する人もいました。データ量が増加すると、この問題は解決されます。

「中断」などのその他の問題には、DNN、CNN、BLSTM (双方向長短期記憶ニューラル ネットワーク) などのさまざまな深層学習モデルと、それらを段階的に解決するための新しいアルゴリズムが必要です。

テクノロジーの使用には反復プロセスが必要になることが多く、まずオンラインにし、次にシーン内のデータを収集してモデルを評価、最適化し、ユーザー エクスペリエンスを向上させる必要があります。最良の結果を得るには、数回の反復が必要です。他の AI テクノロジーも同様です。今日の AI テクノロジーのユーザーの多くは、テクノロジーの機能を簡単に理想化し、導入したらすぐに結果が得られるはずだと感じています。実際の結果が満足のいかないものであることが分かると、大きなギャップを感じ、失望し、諦めてしまいます。確かにインテリジェント音声技術はGF応用のレベルに達していますが、実際に導入する際には、どのような困難が予想されるのかを十分に理解し、持久戦に備える必要があります。

音声認識を開発する方法

概要

過去 5 ~ 10 年で、音声認識システムの応用はさらに拡大すると予測できます。広く普及している。さまざまな音声認識システム製品が市場に登場します。また、人々はさまざまな認識システムに適応するために自分の音声パターンを適応させるでしょう。人間と同等の音声認識システムを短期間に構築することは不可能であり、その構築は依然として人類にとって大きな課題であり、私たちは音声認識システムを改善する方向に一歩ずつ前進するしかありません。人間と同じくらい完全な音声認識システムがいつ構築されるかを予測することは困難です。 1960 年代と同じように、今日の VLSI テクノロジーが社会にこれほど大きな影響を与えるとは誰が予想できたでしょうか。

以上が音声認識を開発する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。