デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラック テクノロジーを明らかにします
生成 AI が満載のデジタル ヒューマンを開きます。
9 月 23 日の夜、杭州アジア競技大会の開会式で、メイントーチの点灯は、集まった何億人ものオンラインデジタル聖火ランナーの「小さな炎」を示しました。銭塘江の上流でデジタル人間像が形成される。その後、デジタルヒューマン聖火ランナーと会場の6人目の聖火ランナーが一緒に聖火ステージまで歩き、一緒にメイントーチに点火しました。
# 開会式の核となる考え方として、デジタル聖火ランナー インターネットの聖火採火形式はホットな検索トピックとなり、人々の注目を集めています。 書き換えられた内容: 開会式の中心的なアイデアとして、デジタル リアリティ インターネットのトーチ点灯方法は熱い議論を引き起こし、人々の注目を集めました。多くの高度で複雑なテクノロジーが関与しています。最も重要な課題の1つは、デジタル人材をどのように「動かす」かということです。生成人工知能と大規模モデルの急速な発展に伴い、デジタル ヒューマン研究にさらに新しい変化が現れていることがはっきりとわかります
10 月初旬に開催される世界的なコンピューター ビジョン カンファレンス ICCV 2023 で、私たちは次のことに気づきました。 3D デジタル ヒューマン モーションの生成に関する研究が会議に含まれていることを明らかにしました。関連論文のタイトルは「拡散確率モデルによる人間とオブジェクトの相互作用の階層的生成」で、浙江大学とアント・グループが共同で出版した。
序文によると、この研究はデジタルヒューマンが長距離にわたって複雑な動きを合成するという問題をある程度解決し、オリジナルのモデルでは達成できない効果を達成できるとのことまたはパスの計画。デジタル ヒューマンの運転に関連するテクノロジーは、アジア競技大会での 1 億人のデジタル ヒューマンのオンライン配信にも使用されています。
多くの場合、仮想人間が自然にシーンを歩き回り、オブジェクトと対話できるように、特定の 3D シーンで 3D 人間のモーションを合成する必要があります。この効果は、AR/VR、映画制作、ビデオ ゲームに多くの用途があります。
ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期間または反復的なモーションを生成することを目的としていますが、新しい研究では、特定の開始位置とターゲット オブジェクト モデルを生成することに焦点を当てています。コンテンツ。
このアイデアはより効果的ですが、明らかにより困難です。まず、人間と物体の相互作用は一貫性を持つ必要があり、そのためには人間と物体の間の長距離相互作用をモデル化する能力が必要です。第 2 に、コンテンツ生成のコンテキストでは、実際の人間がターゲット オブジェクトに近づき、対話する方法は複数あるため、生成モデルはさまざまなサイズのモーションを合成できる必要があります。


具体的には、開始位置とターゲット オブジェクトが与えられると、著者は、動きの軌跡に沿って一連のノードを合成するためのマイルストーン生成モジュールを設計しました。各マイルストーンは、ローカルなポーズをエンコードし、人間の移動中の遷移を示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーション シーケンスを生成します。これらのマイルストーンの存在のおかげで、長いシーケンスの生成からいくつかの短いモーション シーケンスの合成までを簡素化できます。
各マイルストーンのローカル姿勢は、時間一貫性のある結果を生成するためにグローバルな依存関係を考慮したトランスフォーマー モデルによって生成され、コヒーレントな動きをさらに促進します
研究者らは、階層的な生成フレームワークに加えて、さらに拡散モデルを使用して人間と物体の相互作用を合成しました。以前のモーション合成拡散モデルの中には、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもあります。
モーション シーケンスが長いため、新しい設定に直接適用するには多くの計算が必要となり、GPU メモリの爆発を引き起こす可能性があることに注意してください。新しい階層生成フレームワークは長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルまで削減されます。
したがって、研究者は Transformer DDPM を効果的に使用して長期モーション シーケンスを合成し、それによって生成品質を向上させることができます。
この目的を達成するために、研究者は図に示すような階層的な生成フレームワークを設計しました。以下に表示
まず、GoalNet を使用してオブジェクト上のインタラクション ターゲットを予測し、次にターゲット ポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化します。次に、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、それによって開始点からターゲットまでのマイルストーン軌道を生成し、マイルストーン ポーズを配置します。
このようにして、長距離モーションの生成が行われます。は、複数の短距離モーション生成の組み合わせに分解されます。最後に、著者らは、マイルストーン間の軌道を合成し、アクションを埋めるモーション生成モジュールを設計しました。
人工知能 (AI) 姿勢生成
研究者は、人が物体と対話して静止している姿勢を目標姿勢と呼んでいます。以前は、ほとんどの方法で cVAE モデルを使用して人間のポーズを生成していましたが、研究者らは、この方法が独自の研究であまりパフォーマンスが良くないことを発見しました。
この課題に対処するために、VQ-VAE モデルを採用してデータ分布をモデル化しました。このモデルは、離散表現を利用して、データを限られた点のセットにクラスタリングします。さらに、観察に基づくと、人間のさまざまなポーズには同様の特性がある可能性があります。たとえば、人が座っているとき、手の動きは異なる場合がありますが、足の位置は同じである場合があります。したがって、ジョイントを L (L = 5) 個の異なる非重複グループに分割しました。
#図 3 に示すように、ターゲット ポーズは独立したジョイント グループに分割されました。
最後のステップはアクションの生成です。研究者が使用した方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。最初に軌道を生成し、次にアクションを合成します。具体的には、連続する 2 つのマイルストーン内で、最初に軌道を完了します。次に、連続するマイルストーン ジェスチャに基づいて動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。
書き換えられた内容は次のとおりです: 他の製品に先んじる効果
研究者らは、SAMP データセットに対するさまざまな方法の結果を比較しました。論文で提案されている方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。
#この新しい方法は、複雑なシーンでも満足のいく結果を生み出すことができます。この方法によって生成されたペネトレーション フレームの割合は 3.8% で、SAMP の割合は 4.9%です。#完全なリンク レイアウト
デジタル ヒューマンは、音声とセマンティクスのマルチモーダルな組み合わせです。 、ビジョンなどのダイナミックなテクノロジーの組み合わせ。近年、生成型 AI が画期的な進歩を遂げる一方で、デジタル ヒューマンの分野も飛躍的な発展を遂げています。これまで手作業が必要であったモデリング、生成インタラクション、レンダリングなどの要素が完全に人工化されつつあります。エンジニアは最適化を続けるにつれて、このテクノロジーの経験が活かされています。閉幕したばかりのアジア競技大会のオンライン聖火リレーが好例で、聖火ランナーになりたければアリペイアプリのミニプログラムをクリックするだけで済む。 開会式プロジェクトを円滑に進めるために、アント グループのエンジニアは数百機種の携帯電話で 10 万回以上のテストを実施し、20 万行以上のコードを入力して合格したと言われています。 Web3D インタラクティブ エンジン Galacean、AI デジタル ヒューマン、クラウド サービス、ブロックチェーンなどのテクノロジーを組み合わせることで、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようになります。アジア大会デジタル聖火ランナー プラットフォームは数億人のユーザーにリーチでき、一般的なスマートフォン デバイスの 97% をサポートしています。 デジタル聖火ランナーがリアルに参加できるようにするために、Ant の技術チームは 58 個の顔を挟むコントローラーを開発しました。顔認識と AI アルゴリズムを使用することで、各人の顔の特徴に基づいてデジタル聖火ランナーの顔をマッピングできます。同時に顔の形、髪型、鼻、口、眉などを自由に調整して、自由な着せ替えを実現します。この技術は、2 兆通りの異なるデジタル画像の選択肢を提供できます。さらに、開会式点灯式の後、各デジタル トーチランナーは、各デジタル トーチにペイントされた独自のデジタル点火証明書を受け取ることができます。この証明書は分散テクノロジーを通じてブロックチェーンに保存されます。研究論文の内容とアジア競技大会のプロジェクトから、その背後に完全なデジタル ヒューマン テクノロジー システムによるサポートがあることが簡単にわかります。アントグループはデジタルヒューマン技術を積極的に研究しており、デジタルヒューマンのフルリンクコア技術の自主研究レイアウトを完成したことがわかりました。

- 適応性の高いレンダリング: 自社開発の Web3D レンダリング エンジン Galacean は一般的な携帯電話端末の 97% をカバーし、ニューラル レンダリングに関しては、動的駆動と静的モデリングを分離する NeRF フレームワークを備えています。が構築されており、デジタル ヒューマン ダイナミック ビデオ シーンでのアプリケーションが構築されています。
- インテリジェントなインタラクション: 事前トレーニングされた音色クローン作成に基づいて、分単位のオーディオ入力をサポートしてパーソナライズされたデジタル ヒューマンの音色を生成し、大規模なモデルに基づいてデジタル ヒューマン インタラクションをレイアウトします。
- アジア競技大会の開会式に先立って、中国情報通信技術院はデジタルヒューマン規格の最新のコンプライアンス検証結果を発表し、アントグループの霊京デジタルヒューマンプラットフォームが最初の製品となった。業界トップクラスの金融デジタルヒューマン評価に合格し、最高評価「Excellentレベル(L4)」を取得。
- Ant Digital People Platformは、アジア競技大会に加えて、Ant GroupのAlipay、デジタル金融、政府事務、Wufuなどのビジネスもサポートしており、今年はショートビデオ、ライブブロードキャスト、ミニ番組への適用を開始しました。プログラムやその他の通信事業者をパートナーに提供し、基本的なサービスを提供します。 近い将来、生成 AI を活用したデジタル ヒューマンがアップグレードし続けるにつれて、私たちはより多くのシナリオでより良いインタラクションを体験し、デジタルと実物が統合されたスマート ライフを真に迎えることになると予測できます。
以上がデジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラック テクノロジーを明らかにしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

メモ帳++7.3.1
使いやすく無料のコードエディター

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター
