北京冬季オリンピック AI バーチャル ヒューマン手話アンカー、杭州アジア大会デジタル ヒューマン イグニション、新華社デジタル レポーター、デジタル宇宙飛行士シャオウェイ... ますます多くのデジタル ヒューマンが人々の中に現れるにつれ、生活の中でデジタル全体が人間の産業も多様かつ幅広い用途に向けて発展しており、さまざまな産業やさまざまなシナリオに急速に拡大しています。
C サイドの場合、デジタル担当者はユーザーがコンテンツを作成し、作業を支援します。たとえば、デジタル担当者は話し言葉を練習したり、デジタル担当者とゲームをしたりします。 B サイドのデジタル担当者向け これは企業の「ツールマン」であり、金融、映画、テレビ、電子商取引、生放送、その他の業界で産業の生産と業務効率を向上させるために使用されています。
デジタル人材は優れたビジネスですが、その大規模な導入には依然として人材、コスト、シナリオ、テクノロジーなどの困難に直面しています。その中で最も重要なのは技術的なボトルネックであり、デジタル担当者に「ただで肌が綺麗」という市場評価をいかに払拭させるかが大きな課題となっている。
しかし、大型モデルの登場により、デジタルヒューマンの開発は新たなチャンスをもたらしているようです。
1. 大規模モデルがデジタル担当者に力を与える
業界にとって、デジタル担当者自体は新しいものではありません。過去の長い間、デジタル ヒューマンの見た目の観点から忠実度の高いプレゼンテーションを追求するには、プロレベルの映画を作成するのと同じくらいの制作コストがかかりました。
UBSが発表したデジタルヒューマン調査報告書によると、高度なバーチャルキャラクターの平均初期投資コストは3,000万元で、その後、撮影、吹き替え、編集を完了するには実際のチームが必要になるとのこと。 Lehua EntertainmentのバーチャルガールズグループA-SOULを例に挙げると、シングルの制作費は200万元に達し、オフラインコンサートの費用は2,000万元に達しました。
しかし、この高コストの問題は、デジタルヒューマンインタラクションの影響の問題を解決するものではありません。知性が欠如しているため、デジタルヒューマンというよりは魂のないデジタルレザーケースに似ています。
コストが高く、インタラクション効果が低いため、デジタル ヒューマンの使用はメーカーや大企業顧客内の実験プロジェクトに限られてきました。
したがって、学習機能を備えた生成大規模モデルがコンテンツ制作パラダイムの主導権を握るにつれて、より広範囲の中小企業ユーザーをターゲットにし、大規模実装を優先する安価なデジタルヒューマンが実現可能なソリューションになりました。 。
ある人工知能研究者によると、大規模モデルによるデジタル ヒューマンの再構築と権限付与は、主にコスト削減と効率向上に反映されます。
技術的な観点から見ると、デジタル ヒューマンの構築は主にモデリング、駆動、レンダリングに分けられます。従来のデジタル ヒューマンは、主にコンピュータ グラフィックス テクノロジに依存して現実の人物の動きをキャプチャします。これには、大量の現実の人物データの収集と詳細なモデリングが必要であり、時間がかかり、効率が低く、コストが高くなります。
現在、ディープラーニング モデル、アクション シミュレーション、感情シミュレーション、その他のテクノロジに基づいた AI アルゴリズムによる大規模モデルのサポートにより、数分の実写ビデオと数時間のトレーニングだけで済みます。リアルなデジタル人物を生成するための大規模なモデルを使用すると、制作コストが大幅に削減されます。
デジタル ヒューマンのコストが削減されるだけでなく、効率も大幅に向上します。
大型モデルが登場する前は、デジタル ヒューマンは外観に小さな違いがあり、入力された統一スクリプトに基づいて「スクリプト化された」質問に答えることしかできませんでした。
大型モデルの強化により、デジタル ピープルは「魂」を持ち、外観や機能をカスタマイズできるだけでなく、インテリジェンスやインタラクティブ性も大幅に向上しました。たとえば、一部のライブ ブロードキャスト配信シナリオでは、デジタル担当者はすでに視聴者と基本的な対話を行うことができます。
たとえば、Baidu Intelligent Cloud がリリースした Xilin Digital Human は、大規模モデルのサポートにより、ライブ放送室の構築を 15 分で迅速に完了し、製品の機能に合わせたスピーチを自動的に生成し、開始することができます。インテリジェントなインタラクティブな Q&A。
あるケータリング ブランドのライブ ブロードキャスト ルームでは、Xilin デジタル ヒューマン アンカーが、砕氷船の開始、福利厚生放送、ウォームアップ スピーチ、注文を促すスキルなどを含む、ライブ ブロードキャストのスピーチ スキルを自動的に生成します。現実の人々とXi Lingデジタルの人々の間のこのリレーライブブロードキャストでは、ユーザーはまったく気づきませんでした。
さらに驚くべきことは、実際の 6 時間のライブ ブロードキャストの比較では、デジタル アンカーは本物のアンカーの GMV の 85% を獲得するのに、本物のアンカーのコストの 15% しか必要としなかったことです。
商品のライブ ストリーミングに加えて、Baidu Intelligent Cloud Xiling は、大規模なモデルを完全に再構築する中国初のデジタル ヒューマン プラットフォームとして、企業に 2D の現実的な人物、3D のリアルなポートレート、および 3D の超現実的なポートレートを提供することもできます。ビデオ制作、デジタル従業員、デジタルヒューマンスポークスマン、その他のアプリケーションを実現します。
たとえば、XiLing プラットフォームでは、ライブ ビデオにわずか 5 分、ポートレートのトレーニングに 30 分かかり、100 文を録音し、専用のサウンド ライブラリを 1 日 24 時間生成します。ライブティーチングのコストは、従来はわずか 30.% で、記録効率は 20 倍に向上しました。
大型モデルによって再形成され権限を与えられたデジタル担当者が、価格の高さやインタラクティブ性の低さなどの問題をある程度解決し、短いビデオやライブに出演することが増えていることを見つけるのは難しくありません。放送室。
同時に、デジタル担当者は、銀行のファイナンシャル プランナー、弁護士、教師、亡くなった有名人など、より多くの「アイデンティティ」に向けて動き始めています...デジタル担当者は、なりたい人物になりつつあり、これも同様です。混雑したトラックは新たなチャンスをもたらします。
2. デジタル ピープルをより「人間」らしくする
大規模モデルの出現により、デジタル ピープルは「生まれ変わ」り、今日最も注目されている起業家コースの 1 つになりました。
現在、市場にはデジタル ヒューマン メーカーの 2 つの主要なカテゴリがあります。1 つは、Baidu、Tencent、Huawei などに代表されるテクノロジー大手で、大型モデルでの独自の利点に基づいてデジタル ヒューマン製品を開発および発売します。 Baidu、Tencent、Huawei などに代表されるテクノロジー大手。Silicon Intelligence、Mobvoi、Xiangxin Technology に代表される中小規模のメーカー。
人工知能分野の多くの投資家は、AIGC (生成人工知能) はまだ初期段階にあり、利益を生み出すために実装できるものは多くないと述べています。デジタル担当者は数少ない商用化経路の 1 つであり、すでに収益性の高いプロジェクトを抱えています。
しかし、多数の起業家が流入するにつれて、業界の競争は熾烈かつ均質になり、トラックは徐々に混雑し複雑になってきました。
インボリューションの現れの 1 つは、価格がどんどん下がっていることです。現在、ほとんどの 2D デジタル人間の価格は千元のレベルに下がり、中には数百元しかかからないものさえあります。
360 グループのデジタル ヒューマン マーケティング サービスは、インテリジェント マーケティング クラウド プラットフォームのサポート SaaS サービスを通じて顧客に宣伝されていることがわかります。会員ユーザーの月々の支払い基準によると、デジタル ヒューマンの価格は次のとおりです。最低額は数十元、最高額は約 100 ~ 200 元です。
低コストのデジタル人材が市場に大量に流入することにより、数百元相当のデジタルアバターが、たちまち莫大な利益をもたらす「富の本」として誇大宣伝されています。
主流のプラットフォームがオープンする毎深夜、大勢のデジタル担当者がライブ ブロードキャスト ルームに張り付いています。その後、エフェクトが偽物すぎる、市場が混乱しているなど、デジタルピープルに対する疑念が徐々に生じ、その結果、ユーザーエクスペリエンスが低下します。
業界の一部の人々は、ますます多くのプレーヤーが流入するにつれて、一部の起業家は技術的能力に限界があり、彼らが生み出すデジタルヒューマン製品の品質にばらつきが生じ、悪貨が良貨を駆逐することにつながりやすいと考えています。お金。
一方で、デジタル ヒューマンは、より基本的な問題を解決するために、より単純な環境で主に使用されますが、シーンを切り替えたり、複数回の対話に直面したりすると、質問に間違って答えたり、無限ループに陥ったりする可能性があり、そのため作業が制限されます。ユーザー体験。
一方で、大きなモデルの下でのデジタルの人間のインタラクティブな体験は、現実の人間のそれとは常に大きく異なります。たとえば、Sora によって生成されたコンテンツでは、物理原理や人間の指が増えたり減ったりすることは広く批判されており、これが心理的な「不気味の谷効果」をさらに引き起こす可能性があります。
これに関して、一部の専門家は、デジタル ヒューマンの外部擬人化効果を確保しながら、リアルタイム レンダリングに焦点を当ててユーザー インタラクション エクスペリエンスを最適化しながら、技術革新能力とユーザー エクスペリエンスをさらに向上させる必要があると考えています。 、光学キャプチャ、三次元再構築、インテリジェントな人間とコンピュータのインタラクションや自然言語処理、音声認識、コンピュータビジョン、生成AIやその他のテクノロジーなどの新興テクノロジーの研究と応用。
「業界が共同して突破しようとしている現在の技術目標は、『デジタル人材をより人間らしくし、人間のように考える方法』だ」と業界関係者は述べ、企業間の技術協力を加速している感情認識や意味理解などの側面におけるインタラクティブなデジタル ヒューマンの技術的問題が次の焦点となります。
この一連の課題はすべて技術的な側面を示しています。
2024 年「中国仮想デジタル人的影響指数報告書」は、2024 年 2 月末の時点で、国家知識産権局の「特許調査」データによると、デジタル分野における特許出願の数は、 2023 年の人間分野の件数は 544 件に達し、業界の強力な勢いとコア技術の研究開発における徹底的なイノベーションを反映しています。
2023年にデジタルヒューマン関連の特許を申請した機関から判断すると、百度やテンセントに代表される老舗インターネット大手、中国移動や中国工商銀行に代表される大手通信・金融機関、小兵公司、 Shiyou TechnologyやBlack Mirror Technologyに代表されるデジタル大手企業は、テクノロジー面で多勢力構造を形成している。
業界の大手メーカーは AI テクノロジーにおいて先行者利益を持っていますが、業界の急速な発展の過程において、テクノロジー自体に対して絶対的な障壁となる企業は存在しません。すべてのデジタル ヒューマン メーカーにとって、AIGC はチャンスをもたらすと同時に、課題に直面する出発点にもなります。
3. 結論
デジタル担当者は最前線に立っており、パイの一部を求める起業家が大量に流入しています。しかし、デジタルヒューマンは若いテクノロジーとしてまだ初期段階にあり、市場はまだ開拓途上であることは否定できません。
同じくレッドオーシャンに陥っているデジタルヒューマン企業にとって、考えるべきことは「低価格を実現する」ことではなく、テクノロジーの絶え間ない進歩によってデジタルヒューマンを「より人間らしく」することではないでしょうか。全体的な水位により、デジタル担当者は「生き残って」、より多くの価値を生み出すことができます。
以上が大型モデルの恩恵を受けて、デジタル人間は「より人間らしく」なったのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ホットトピック









