ホームページ  >  記事  >  テクノロジー周辺機器  >  AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

WBOY
WBOY転載
2023-04-09 18:01:141234ブラウズ

「あと 46 分あります。ドン先生の休暇は終わります。」

これは、ドン・ユフイの最新動画に対して 100 件以上のいいねがついたメッセージです。

彼がオリエンタル選抜の生放送室から姿を消していた頃、ファンは彼の個人アカウントに殺到し、「この男が休暇を取る限り、何十万人もの人が恋に落ちるだろう。 」

しかし、トップアンカーには、自分のポストにどれだけ献身的に取り組んでも、放送を終える時が必ずあります。

結局のところ、気の利いた発言をしながら何時間も話し続けるのは、気力も体力も消耗します。

このような状況では、「24時間生放送」は不可能なだけでなく、シフトなしで長時間チャットすることすら、誰もが耐えられるものではありません。

しかし、そうは言っても、もし機械のサポートがあればどうなるでしょうか...

特にこの時期にバーチャル ヒューマンやその他のテクノロジーが爆発的に普及したことにより、人々の心を開かないようにするのは困難です—

AI 機能を使えば、ヘッドアンカー「彼自身」が 24 時間生放送室に常駐できるでしょうか?

さらに、ドン先生のバイリンガル能力がなくても、言語をシームレスに切り替えて直接海外に行くことは可能でしょうか?

24時間生放送、大変なことは何ですか?

現在実装されているさまざまな AI テクノロジーから判断すると、これらの「ブレインホール」の実現は不可能ではありません。

画像技術の観点から言えば、AIがアバターを直接生成したり、アンカーの顔を「変更」したりすることは難しくありません。

たとえば、海外の偽「トム・クルーズ」はしばらくの間TikTokで人気がありましたが、Liu YexiやLi Xinglanなどの国内のアバターも国内のソーシャルメディアプラットフォームで非常に人気があり、ビデオではほとんど見えません. 「AI合成」の影もあり、コメント欄にも驚く声が多数。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

それだけではなく、海外のOpenAIのDALL・E2、Googleの最新のImagenやParti、国内のZhiyuan CogVideo、 Microsoft Asia Research NUWA-Infinity などはすべて、過去数か月の間に出現した新しい成果です。

上記の映像技術の多くは、APIインターフェースがオープンされたり、トライアル申請されているほか、同様のオープンソースモデルも数多く存在しており、基本的には「誰でも遊べる」ものとなっています。

これらの技術をベースに、「24時間生放送」を行うAIブロガーが国内外のさまざまなプラットフォームに多数登場しています。

しかし、クリックしてみると、これらの AI ブロガーは、本物のアンカーや本物の人間が演じる仮想アンカーよりもはるかに人気が低いことがわかります。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

△24時間AIバーチャルアンカー、半日でわずか167人が「視聴」

生放送の効果も同様私たちが期待していた「24 時間の生放送」としては、「生放送」は少し遠いです:

対話するとき、ほとんどの AI アンカーができることは非常に限られています。単純に数曲しか歌えない人もいます (限られたプレイリスト) )、または設定された指示に従って応答するなど。 ;

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

AI によって合成された仮想アンカーの音色は、本物のアンカーほど鮮やかではないだけでなく、しかし、感情的な「驚き」を積極的に作り出すこともできません。

これは、ほとんどの仮想 AI アンカーの問題点を反映しています -

近年、画像生成テクノロジでは継続的な進歩が見られますが、音声言語 AI の技術的敷居は依然として高いです。

董裕輝先生の生放送室を例に挙げますが、董裕輝先生の意志があれば「AI 董裕輝」のイメージを作り出すことは難しくありません;

しかし、それは困難です。ドン先生の「AI バージョン」に異なる口調で話させるには、自分の声に近づける、生放送室の他の教師の声を認識する、さらには「」の声を理解するなどの操作を完了するのはまだ困難です。生放送室の外にいるアシスタントの指示」。

その背後には、音声合成、音声認識、音声認識など、さまざまな音声言語AIの総合的な機能が対応しています。

さらに一歩進んで、このライブ ブロードキャスト ルームを国際的なものにしたい場合は、音声機能に対するより高い要件も提示することになります。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

たとえば、少なくともオンラインでリアルタイムに翻訳できる AI 字幕が必要です。

これを踏まえて、バリアを作りたい場合は、 -無料のライブブロードキャストルームでは、同時通訳能力をさらに習得する必要があります。

良いニュースは、近年ますます多くの大手テクノロジーメーカーがこの軌道に注目し、投資を増やしていることです。

国内外の大手メーカーが取り組みを強化

理論研究という観点だけでも、音声言語AIに向けた論文が数多く発表されている。

Amazon や Google などの大手企業は、会話型 AI、NLP、言語処理に関する AI 論文を数百、場合によっては数千冊出版しており、その多くは主要なカンファレンス論文となっていますが、2018 年に最優秀論文を受賞したのは Meta だけです。 2 つのトップ NLP カンファレンス、EMNLP と ACL から...

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

(もちろん、論文数が少ない企業もあります。たとえば、Apple は特許出願を優先します)

BAT、Huawei、JD などの国内企業近年では.comなども設立され、自身の音響学やNLP研究室がNAACL、AAAI、ACLなど多くのトップカンファレンスで様々な論文賞を受賞している。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

△ACL 2022 一部優秀論文賞

最も影響力のある音声言語コンテストである IWSLT (International Spoken Language Machine Translation Competition) を例に挙げます。世界の機械翻訳コンテストの一つ。

今年のコンテストで、ファーウェイは音声認識翻訳、オフライン音声翻訳、等長音声翻訳の3つのタスクにおいて、4つの言語分野でトップ1にランクされました。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

#しかし、研究以外でも、大手メーカーは音声言語 AI テクノロジーの実装についてさまざまな考えを持っています。

最新の研究に基づいて自社製品 (音声アシスタント、検索エンジンなど) を最適化することに加えて、一部のメーカーはモデルを直接オープンソース化したり、開発者が呼び出せる AI フレームワークにすることを選択しています。

このような AI 機能は、AI に触れたことのない多くの開発者にとって「難解すぎる」ものであり、どこでどのように使用すべきかを理解することさえ困難です。

これにより、ある程度、多くの開発者が最新の音声および言語 AI テクノロジーにアクセスできなくなるという結果にもなりました。

特に、近年急速に普及している同時通訳AIには、リアルタイム性やモデル性能が求められており、トップカンファレンスでも対応する論文やワークショップが増えています。

ライブ放送などの業界にとっても、同時通訳AIは視聴者や影響範囲を拡大するために欠かせない技術です。

それでは、より低いしきい値で実装する方法はあるのでしょうか?

現在、多くのメーカーが新しい方法を試み始めています-

ファーウェイを例に挙げると、これはモバイル開発者を対象としており、ファーウェイ モバイル コア サービス (HMS コア) に基づいています。機械学習サービス (ML Kit) ツールキット。

これに基づいて、開発者は AI の技術的な詳細を習得しなくても、開発するモバイル アプリやアプリケーションでこれらの音声言語テクノロジを使用できます。

たとえば、先ほど見た AI 字幕 (オンラインテキスト翻訳) と同時通訳は、ファーウェイのツールキットの音声言語 AI 機能に基づいて簡単に実現できます。

開発の敷居はますます低くなっています

ここまで述べたところで、開発の開始方法と使用方法を見てみましょう。

たとえば、Huawei Developer Forum では、ML Kit のリアルタイム音声認識、リアルタイム音声文字起こし、その他の機能に基づいて、おばあちゃん向けの音声検索ショッピング アプリを開発した人がいます。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

音声機能を実装する手順は複雑ではありません。

まず、Huawei Developer Alliance Web サイトでの実名登録の完了、AppGallery Connect の構成、プロジェクト内の HMS Core SDK の Maven ウェアハウス アドレスの構成など、開発の準備を行う必要があります。

次に、関連するサービス SDK を統合します。リアルタイム音声認識サービスを例に挙げると、コードは次のとおりです。

dependencies<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br><span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">//</span> 引入实时语音识别服务插件<br>implementation <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span>

次に、音声サービスにアクセスする段階に入ることができます。

リアルタイム音声認識サービスを例に挙げてみましょう。アプリケーションの認証情報を設定した後の最初のステップは、サポートされている言語リスト LANGUAGE を参照して、リアルタイム音声認識パラメータを設定するためのインテントを作成することです。

mSpeechRecognizer<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.getLanguages</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>new MLAsrRecognizer<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.LanguageCallback</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span> <br> @Override <br>public void onResult<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>List<span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">String<span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">></span> result<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br>Log<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.i</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>TAG<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"support languages=="</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> result<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.toString</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><br>@Override<br>public void onError<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(34, 134, 58); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">int</span> errorCode<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> String errorMsg<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br>Log<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.e</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>TAG<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"errorCode:"</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> errorCode <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"errorMsg:"</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> errorMsg<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span></span>

2 番目のステップは、アクティビティを作成し、以前に作成した音声ピックアップのインテントを渡し、結果を元のアクティビティに返すことです。これにより、60 秒以内 (60 秒を含む) の音声をリアルタイムで認識できます。

private static final <span style="color: rgb(34, 134, 58); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">int</span> REQUEST_CODE_ASR <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">=</span> <span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">100</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">//</span> REQUEST_CODE_ASR表示当前Activity和拾音界面Activity之间的请求码,通过该码可以在当前Activity中获取拾音界面的处理结果。<br>startActivityForResult<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>intent<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> REQUEST_CODE_ASR<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span>

最後に、「onActivityResult」メソッドをオーバーライドして、音声認識サービスから返された結果を処理します (コードの詳細については、参照リンクを参照してください)。

各ステップの開発の詳細については、HMS Core 公式 Web サイトで入手可能な詳細な開発ガイドがあり、初心者にも非常に親切です。

さらに、HMS Core の機械学習サービスは、Huawei 製携帯電話だけでなく、Android デバイスや iOS デバイスにも適用でき、具体的なバージョン要件は次のとおりです。

AIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?

どうですか? SDKにアクセスするだけで、複雑なパラメータ調整やトレーニングを必要とせずに、大手メーカーが使用するレベルのAIアルゴリズム機能を得ることができます。

(ML Kit は音声言語技術だけでなく、テキストや画像などのさまざまな AI アルゴリズム機能も提供します。具体的な詳細については、記事末尾の「原文を読む」をクリックして ML Kit を参照してください)公式ウェブサイト)。

しかし、トップアンカーには、自分のポストにどれだけ献身的に取り組んでも、放送を終える時が必ずあります。

実は、使いやすいツールを通じて、長期的に蓄積された技術能力をモバイルアプリケーション開発者に公開するというこのアプローチは、ファーウェイに限ったものではありません。

Google の GMS コアであれ、Apple の開発者向けのさまざまなキットであれ、主な目的は、最先端テクノロジーの実装の敷居を継続的に下げ、より多くの開発者が技術的な懸念を抱くことなくより多くのテクノロジーを実践できるようにすることです。 . 創造性にもっとエネルギーと時間を注ぎましょう。

その結果、携帯電話ユーザーは、最新のテクノロジーをさまざまな楽しく創造的な形で携帯電話上で直接体験できることを当然のこととして喜んでいます。

メーカーにとって、アプリケーションの繁栄は、外部からより多くのユーザーを引き付け、内部にはより優れた開発者を集める、エコロジカルサイクルの最も重要なノードを構成します。

以上がAIはどのようにしてドン・ユフイ氏の仕事を辞めさせないのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。