ホームページ > 記事 > テクノロジー周辺機器 > 注目の生成 AI はスマート スピーカーを復活させることができるでしょうか?
スマート スピーカーなどの製品は、多くの消費者からほとんど忘れ去られていますが、2017 年と 2018 年の「狂気」を経験してからは、ほとんどの消費者の注目を集めなくなって久しいです。スマート スピーカーは一瞬だろうと誰もが思っていたとき、ChatGPT の登場はスマート スピーカーに二度目のチャンスを与え、またこの衰退する業界に新たなチャンスを与えたかに見えました。では、スマート スピーカーと今人気の生成 AI は火花を散らすことができるのでしょうか?
スマート スピーカー業界にとって、生成 AI は長い干ばつの後の雨のようなものかもしれません。関連する市場調査データによると、2023年第1四半期には、製品の均一性の厳しさや消費者需要の低下などの要因が重なり、国内のスマートスピーカーのオンライン監視型小売売上高は157万台となり、さらに40.6%減少した。 , 一方、2022年を通じて、スマートスピーカーの国内オムニチャネル販売台数は2,631万台で、前年比28%減少した。
かつて大手各社から大きな期待を寄せられ、スマートホームの入り口とも目されていたスマートスピーカーが、なぜ近年奈落の底に落ちてしまったのでしょうか?理由は実は 1 つだけです。それは、スマート スピーカーが実際には十分にスマートではないということです。
スマートスピーカーの概念が盛り上がっていた2017年、業界ではスマートスピーカーの焦点を「知能」にするか「音質」にするかという議論がありました。結局、Tencent Listening や Apple HomePod など、音質に重点を置いた一連の製品は、その悲劇的な失敗を利用して、スマート スピーカーのセールスポイントはインテリジェンスのみであることを証明しました。
しかし、残念ながら、ほとんどのスマート スピーカーの知能レベルは「拡張されている」としか言いようがありません。しかし、大手メーカーは、ASR (音声認識)、NLP 自然意味処理、人工知能などの人工知能や人工知能に限定的に注目しています。遠方音場集音 音響技術の進歩は、確かに少々楽観的すぎます。実際、スマート スピーカーは技術的な観点から見ると非常にシンプルであり、その動作モードは、ユーザーの音声を収集し、サーバーに音声を送信し、計算して結果を生成し、最後に結果をスマート スピーカーに送信して回転させることです。たとえば、アプリケーションを開いたり、ユーザーの質問に答えたりするなど、特定の動作に変換します。
はい、スマート スピーカー自体は人工知能とは何の関係もありません。Xiaoai、Xiaodu、Tmall Elf の本体は対応するサーバーに隠されています。これらすべては、スマート スピーカーのエクスペリエンスを決定する鍵は、複雑な音響環境においてユーザーの音声コマンドを正確に捕捉する能力である遠距離音収音技術であるという事実にもつながります。 「冗談」とスマート スピーカーが聞きます。これを「曲の再生」と呼びましょう。
スマート スピーカーの解決策は、大規模なマイク アレイを使用して音を収集することですが、まだ解決されていない問題点が 1 つあります。それは、音声ウェイクアップ (キーワード スポッティング) です。スマート スピーカーを使用する場合は、「Hi, Siri」、「Xiao Ai Classmate」、「Xiaodu Xiaodu」などのウェイクアップ ワードを使用して、あなたが話していることをスマート スピーカーに知らせる必要があります。スピーカー スピーカーには積極的に奉仕する能力がありません。さらに重要なことは、技術的な制限により、スマート スピーカーは長い間、「音量を上げる/下げる」、「誰々の曲を誰々で再生する」などの単純な指示しか理解できず、さらに複雑な指示しか理解できませんでした。文章の認識は難しいことがよくあります。
ChatGPT や Wen Xinyiyan などの生成 AI がスマート スピーカーにとって重要なのは、前者がスマート スピーカーがより複雑な文章を理解し、より自然なコミュニケーションを提供できるようになることです。 Microsoft Bing Chat、Baidu Wenxinyiyan、または ChatGPT を使用したことのある友人なら、このタイプの生成 AI と話すときに、「こんにちは、ChatGPT」などの冒頭の文を使用する必要はなく、直接入力することで開始できることを知っているはずだと思います。コンテンツ、対話プロセス。
生成 AI は大規模言語モデル (LLM、Large Language Model) に基づいているため、手動の注釈データと人間のフィードバックによる強化学習技術が追加され、知識を複数の言語に書き込むナレッジ グラフ技術によって補完されます。 - 構造化されたトリプル (エンティティ、概念、関係を含む) の関係図により、AI は人間の指示の意味を理解し、最終的には巨大な情報データベースから回答するコンテンツを選択できるようになります。
Siri や Xiaoai と比較した ChatGPT のような製品の最大の変更点は、複数ラウンドの会話ができることです。 「魚の記憶」に近い Siri に比べ、ChatGPT は常にユーザーと会話することができ、より明確な感情認識と相まって、ユーザーは本当に生きている人間と話しているように感じます。消費者向け製品の場合、ユーザーは明らかに、その背後にある技術原則がどれほど進んでいるかではなく、問題を解決できるか、ニーズを満たせるかどうかを気にします。
生成AIの魅力は能力の上限の高さにあり、その代表例がMicrosoft Copilotであると同時に、ユーザーの社会的なニーズにもある程度応えることができる、今では海外でもChatGPTを使っているクリエイターがいるは、自身をモデルにした「バーチャルコンパニオン」を立ち上げ、1,000人以上のユーザーを獲得した。一般に、生成 AI とスマート スピーカーを組み合わせることで、後者の欠点をほぼ補うことができ、消費者市場で使用できるレベルのインテリジェンスを実現できます。
実際、一部のスマート スピーカー メーカーはすでに行動を起こしています。たとえば、今年2月にBaiduがWen Xin Yi Yanを準備していたとき、XiaoduはWen Xin Yi Yanを統合してスマートデバイスシナリオ向けのAIモデル「Xiaodu Lingji」を作成するとすでに発表しており、4月にはTmallがGenieが「Niaodu」にアクセス 「鳥が鳥を分ける」モデルによって作成された「AI口置換」も、アリババのTongyi Qianwenへのアクセスを発表した。
しかし、生成 AI は「万能薬」ではないことを指摘する必要があります。今のところ、すべての生成 AI はコンピューティング リソースの不足という避けられない問題に直面しています。最近、生成AIの上限であるGPT-4がバカになったというニュースが注目を集めていますが、リリース当初に比べてGPT-4のテキストコードの品質が低下しているというのがユーザーの共通認識となっています。すべての側面。
はい、実は GPT-4 だけでなく、ChatGPT や Wenxinyiyan などの一般向け製品でも同様の状況が発生しており、ユーザー数の増加により大型モデルのパフォーマンスが低下しています。
現在、生成 AI の分野が直面している中心的な問題は、コンピューティング リソースが不足しており、ユーザーの流入に対応できないことです。ユーザー エクスペリエンスを確保するために、このような製品では大規模モデルのパフォーマンスを低下させ、時間を短縮することしかできません。コンテンツを生成するため、サーバーの「負荷を軽減する」ため。それに比べて、スマート スピーカーの既存の市場規模は間違いなく大きいため、生成 AI にアクセスした後は、同様の問題に遭遇するのはほぼ避けられません。
将来起こる可能性があるのは、スマート スピーカーの知能レベルが放物線を描くことです。初期のユーザー エクスペリエンスは飛躍的に向上しますが、ユーザー数が増加し続けるにつれて、知能のパフォーマンスも低下する可能性があります。劣化」 数年前のレベルに戻りました。
以上が注目の生成 AI はスマート スピーカーを復活させることができるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。