デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします-AI-php.cn

ホームページ

テクノロジー周辺機器

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 29, 2023 pm 11:57 PM

デジタルマン業界生成AIiccv

生成 AI が満載のデジタルヒューマンを開きます。

9 月 23 日の夜、杭州アジア競技大会の開会式で、メイントーチの点灯は、集まった何億人ものオンラインデジタル聖火ランナーの「小さな炎」を示しました。銭塘江の上流でデジタル人間像が形成される。その後、デジタルヒューマン聖火ランナーと会場の6人目の聖火ランナーが一緒に聖火ステージまで歩き、一緒にメイントーチに点火しました。

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

# 開会式の核となる考え方として、デジタル聖火ランナーインターネットの聖火採火形式はホットな検索トピックとなり、人々の注目を集めています。書き換えられた内容: 開会式の中心的なアイデアとして、デジタルリアリティインターネットのトーチ点灯方法は熱い議論を引き起こし、人々の注目を集めました。多くの高度で複雑なテクノロジーが関与しています。最も重要な課題の1つは、デジタル人材をどのように「動かす」かということです。生成人工知能と大規模モデルの急速な発展に伴い、デジタルヒューマン研究にさらに新しい変化が現れていることがはっきりとわかります

10 月初旬に開催される世界的なコンピュータービジョンカンファレンス ICCV 2023 で、私たちは次のことに気づきました。 3D デジタルヒューマンモーションの生成に関する研究が会議に含まれていることを明らかにしました。関連論文のタイトルは「拡散確率モデルによる人間とオブジェクトの相互作用の階層的生成」で、浙江大学とアント・グループが共同で出版した。

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします序文によると、この研究はデジタルヒューマンが長距離にわたって複雑な動きを合成するという問題をある程度解決し、オリジナルのモデルでは達成できない効果を達成できるとのことまたはパスの計画。デジタルヒューマンの運転に関連するテクノロジーは、アジア競技大会での 1 億人のデジタルヒューマンのオンライン配信にも使用されています。

デジタルヒューマンを動かすための生成 AI ドライバー

多くの場合、仮想人間が自然にシーンを歩き回り、オブジェクトと対話できるように、特定の 3D シーンで 3D 人間のモーションを合成する必要があります。この効果は、AR/VR、映画制作、ビデオゲームに多くの用途があります。

ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期間または反復的なモーションを生成することを目的としていますが、新しい研究では、特定の開始位置とターゲットオブジェクトモデルを生成することに焦点を当てています。コンテンツ。

このアイデアはより効果的ですが、明らかにより困難です。まず、人間と物体の相互作用は一貫性を持つ必要があり、そのためには人間と物体の間の長距離相互作用をモデル化する能力が必要です。第 2 に、コンテンツ生成のコンテキストでは、実際の人間がターゲットオブジェクトに近づき、対話する方法は複数あるため、生成モデルはさまざまなサイズのモーションを合成できる必要があります。

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

#図 1. 人と物体との間のインタラクティブな画像の生成。新しいメソッドは、オブジェクトが与えられると、まず一連のマイルストーンイベントを予測します。リングは位置を表し、ピンクの人物は元のポーズを表します。アルゴリズムはマイルストーン間のアクションを埋めます。この図は、同じオブジェクトを使用して異なるマイルストーンとアクションを生成する新しいメソッドを示しています。時間の流れをカラーコードで示し、濃い青色はそれ以降のフレームを表します。

デジタル人間の動きを生成する手法として、既存の合成手法はオンライン生成とオフライン生成に大別できます。ほとんどのオンライン方法は、キャラクターのリアルタイム制御に焦点を当てています。ターゲットオブジェクトが与えられると、通常、自己回帰モデルを使用して、フィードバック予測を通じて将来の動きを周期的に生成します。この方法はビデオゲームなどのインタラクティブなシナリオで広く使用されていますが、その品質は長期的な生成にはまだ満足のいくものではありません。

モーションの品質を向上させるために、最近のいくつかのオフライン手法では、最初に軌道を生成してからモーションを合成する、マルチレベルのフレームワークを採用し始めています。この戦略は合理的なパスを生成できますが、パスの多様性には制限があります。デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

この新しい研究では、著者らは、人と物体間の長期的で多様なインタラクションを合成するための新しいオフライン方法を提案します。この方法の革新性は、階層的な生成戦略にあります。まず、この戦略は一連のマイルストーンを予測し、それらのマイルストーンの間に人間のアクションを生成します。

具体的には、開始位置とターゲットオブジェクトが与えられると、著者は、動きの軌跡に沿って一連のノードを合成するためのマイルストーン生成モジュールを設計しました。各マイルストーンは、ローカルなポーズをエンコードし、人間の移動中の遷移を示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーションシーケンスを生成します。これらのマイルストーンの存在のおかげで、長いシーケンスの生成からいくつかの短いモーションシーケンスの合成までを簡素化できます。

各マイルストーンのローカル姿勢は、時間一貫性のある結果を生成するためにグローバルな依存関係を考慮したトランスフォーマーモデルによって生成され、コヒーレントな動きをさらに促進します

研究者らは、階層的な生成フレームワークに加えて、さらに拡散モデルを使用して人間と物体の相互作用を合成しました。以前のモーション合成拡散モデルの中には、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもあります。

モーションシーケンスが長いため、新しい設定に直接適用するには多くの計算が必要となり、GPU メモリの爆発を引き起こす可能性があることに注意してください。新しい階層生成フレームワークは長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルまで削減されます。

したがって、研究者は Transformer DDPM を効果的に使用して長期モーションシーケンスを合成し、それによって生成品質を向上させることができます。

この目的を達成するために、研究者は図に示すような階層的な生成フレームワークを設計しました。以下に表示

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

まず、GoalNet を使用してオブジェクト上のインタラクションターゲットを予測し、次にターゲットポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化します。次に、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、それによって開始点からターゲットまでのマイルストーン軌道を生成し、マイルストーンポーズを配置します。

このようにして、長距離モーションの生成が行われます。は、複数の短距離モーション生成の組み合わせに分解されます。最後に、著者らは、マイルストーン間の軌道を合成し、アクションを埋めるモーション生成モジュールを設計しました。

人工知能 (AI) 姿勢生成

研究者は、人が物体と対話して静止している姿勢を目標姿勢と呼んでいます。以前は、ほとんどの方法で cVAE モデルを使用して人間のポーズを生成していましたが、研究者らは、この方法が独自の研究であまりパフォーマンスが良くないことを発見しました。

この課題に対処するために、VQ-VAE モデルを採用してデータ分布をモデル化しました。このモデルは、離散表現を利用して、データを限られた点のセットにクラスタリングします。さらに、観察に基づくと、人間のさまざまなポーズには同様の特性がある可能性があります。たとえば、人が座っているとき、手の動きは異なる場合がありますが、足の位置は同じである場合があります。したがって、ジョイントを L (L = 5) 個の異なる非重複グループに分割しました。

#図 3 に示すように、ターゲットポーズは独立したジョイントグループに分割されました。

##開始ポーズとターゲットポーズに基づいて、アルゴリズムにマイルストーンの軌道を生成させ、マイルストーンでローカルポーズを合成させることができます。モーションデータの長さは不明であり、任意である可能性があるため (たとえば、人はすぐに椅子まで歩いて座る場合もあれば、椅子の周りをゆっくり歩いてから座る場合もあります)、長さを予測する必要があります。マイルストーンの値。 N で表されます。次に、N 個のランドマークポイントが合成され、ローカルポーズがこれらのポイントに配置されます。デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

最後のステップはアクションの生成です。研究者が使用した方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。最初に軌道を生成し、次にアクションを合成します。具体的には、連続する 2 つのマイルストーン内で、最初に軌道を完了します。次に、連続するマイルストーンジェスチャに基づいて動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

研究者は、目標の出力を生成するために、ステップごとに DDPM の条件を慎重に設計します。

書き換えられた内容は次のとおりです: 他の製品に先んじる効果

研究者らは、SAMP データセットに対するさまざまな方法の結果を比較しました。論文で提案されている方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。

#この新しい方法は、複雑なシーンでも満足のいく結果を生み出すことができます。この方法によって生成されたペネトレーションフレームの割合は 3.8% で、SAMP の割合は 4.9%です。

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

SAMP、COUCH およびその他のデータセットでは、研究で言及されている方法全員がベースラインの方法よりも良い結果を達成しました

デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

#完全なリンクレイアウト

デジタルヒューマンは、音声とセマンティクスのマルチモーダルな組み合わせです。、ビジョンなどのダイナミックなテクノロジーの組み合わせ。近年、生成型 AI が画期的な進歩を遂げる一方で、デジタルヒューマンの分野も飛躍的な発展を遂げています。これまで手作業が必要であったモデリング、生成インタラクション、レンダリングなどの要素が完全に人工化されつつあります。エンジニアは最適化を続けるにつれて、このテクノロジーの経験が活かされています。閉幕したばかりのアジア競技大会のオンライン聖火リレーが好例で、聖火ランナーになりたければアリペイアプリのミニプログラムをクリックするだけで済む。

開会式プロジェクトを円滑に進めるために、アントグループのエンジニアは数百機種の携帯電話で 10 万回以上のテストを実施し、20 万行以上のコードを入力して合格したと言われています。 Web3D インタラクティブエンジン Galacean、AI デジタルヒューマン、クラウドサービス、ブロックチェーンなどのテクノロジーを組み合わせることで、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようになります。アジア大会デジタル聖火ランナープラットフォームは数億人のユーザーにリーチでき、一般的なスマートフォンデバイスの 97% をサポートしています。

デジタル聖火ランナーがリアルに参加できるようにするために、Ant の技術チームは 58 個の顔を挟むコントローラーを開発しました。顔認識と AI アルゴリズムを使用することで、各人の顔の特徴に基づいてデジタル聖火ランナーの顔をマッピングできます。同時に顔の形、髪型、鼻、口、眉などを自由に調整して、自由な着せ替えを実現します。この技術は、2 兆通りの異なるデジタル画像の選択肢を提供できます。

さらに、開会式点灯式の後、各デジタルトーチランナーは、各デジタルトーチにペイントされた独自のデジタル点火証明書を受け取ることができます。この証明書は分散テクノロジーを通じてブロックチェーンに保存されます。

研究論文の内容とアジア競技大会のプロジェクトから、その背後に完全なデジタルヒューマンテクノロジーシステムによるサポートがあることが簡単にわかります。アントグループはデジタルヒューマン技術を積極的に研究しており、デジタルヒューマンのフルリンクコア技術の自主研究レイアウトを完成したことがわかりました。デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

市場に出回っているほとんどの企業とは異なり、Ant Group のデジタルヒューマンテクノロジーは自社開発されており、生成 AI と組み合わせた開発の方向性を選択しています。技術展開の観点からは、デジタルヒューマンのモデリング、レンダリング、運転、インタラクションのライフサイクル全体をカバーしており、AIGC と大規模モデルを組み合わせることで、デジタルヒューマンのフルリンクの制作コストが大幅に削減されます。現在では2D、3Dデジタルパーソンにも対応しており、ブロードキャスト型やインタラクティブ型など多彩なソリューションを提供しています。

公開情報によると、Ant Digital Human Platform には現在 4 つの技術的な利点と機能があると要約できます。低コストのモデリング : 清華大学と協力して、アジア人の顔の 3D パラメトリックモデルを立ち上げます。これは、写真に基づいて、アジア人の顔の特徴により近い 3D 顔を再構築します。デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにします

ジェネレーティブドライバー: ドライバーの生成とモーションキャプチャを組み合わせることで、従来のアクション制作プロセスと比較してコストが効果的に削減され、動きの豊かさが向上します。

適応性の高いレンダリング: 自社開発の Web3D レンダリングエンジン Galacean は一般的な携帯電話端末の 97% をカバーし、ニューラルレンダリングに関しては、動的駆動と静的モデリングを分離する NeRF フレームワークを備えています。が構築されており、デジタルヒューマンダイナミックビデオシーンでのアプリケーションが構築されています。
インテリジェントなインタラクション: 事前トレーニングされた音色クローン作成に基づいて、分単位のオーディオ入力をサポートしてパーソナライズされたデジタルヒューマンの音色を生成し、大規模なモデルに基づいてデジタルヒューマンインタラクションをレイアウトします。
アジア競技大会の開会式に先立って、中国情報通信技術院はデジタルヒューマン規格の最新のコンプライアンス検証結果を発表し、アントグループの霊京デジタルヒューマンプラットフォームが最初の製品となった。業界トップクラスの金融デジタルヒューマン評価に合格し、最高評価「Excellentレベル（L4）」を取得。
Ant Digital People Platformは、アジア競技大会に加えて、Ant GroupのAlipay、デジタル金融、政府事務、Wufuなどのビジネスもサポートしており、今年はショートビデオ、ライブブロードキャスト、ミニ番組への適用を開始しました。プログラムやその他の通信事業者をパートナーに提供し、基本的なサービスを提供します。
近い将来、生成 AI を活用したデジタルヒューマンがアップグレードし続けるにつれて、私たちはより多くのシナリオでより良いインタラクションを体験し、デジタルと実物が統合されたスマートライフを真に迎えることになると予測できます。

以上がデジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラックテクノロジーを明らかにしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、