ホームページ > 記事 > テクノロジー周辺機器 > カード1枚で30秒でバーチャル3D嫁をゲット! Text to 3D は、毛穴の詳細が明確な高精度のデジタル ヒューマンを生成し、Maya、Unity、その他の制作ツールとシームレスに接続します
ChatGPT は AI 業界に鶏の血を注入しました。かつては想像もできなかったすべてのことが、今日では基本的な慣行になりました。
は Text-to-3D を継続的に進めており、Diffusion(image) や GPT(text) に続くものと考えられています。 AIGC 分野における次のフロンティアのホットスポットは、前例のない注目を集めています。
いいえ、ChatAvatar という製品が控えめなパブリック ベータ版として公開されました。すぐに 700,000 回を超えるビューと注目を集め、ホット (今週のスペース) に掲載されました。 。
△ChatAvatar は、AI で生成された単一視点/複数視点のオリジナルの絵画から 3D 様式化されたキャラクターを生成する Image to 3D テクノロジーもサポートします。
#現在のベータ版で生成された 3D モデルは、PBR 素材とともにローカルに直接ダウンロードできます。うまく機能するだけでなく、さらに重要なのは、無料でプレイできるということです。一部のネチズンは次のように叫びました。
とてもクールです。独自のデジタル ツインを簡単に生成できるような気がします。#これにより、多くのネチズンが試してアイデアを投稿するようになりました。この製品と ControlNet を組み合わせたところ、その効果が予想外に繊細でリアルだったという人もいました。 使用する敷居がほぼゼロのこの Text-to-3D ツールは
ChatAvatar と呼ばれ、国内の AI スタートアップ企業である Yingmo Technology Team によって作成されました。
これは、世界初の Production-Ready Text to 3D 製品であることがわかり、スターの名前や希望のキャラクターの外観などの単純なテキストを通じて、映画やテレビのレベルを生成できます。画像 3D の超現実的なデジタル人的資産。 効率も非常に高く、自分の顔であっても本物に見える顔を作成するのにかかる時間は平均 30 秒です。 将来的には、生成分野は他の 3 次元アセットにも拡大される予定です。 そして、モデルには通常のトポロジ、4k 解像度の PBR マテリアル、バインディングがあり、Unity、Unreal Engine、Maya などのプロダクション エンジンのプロダクション パイプラインに直接接続できます。 それでは、ChatAvatarとはどのような3D生成ツールなのでしょうか?その背後にはどのようなテクノロジーが使用されているのでしょうか? 「スキンのペイント」を 30 秒で完了 ChatAvatar のゲームプレイを実際に体験してみると、まさに敷居ゼロと言えることがわかります。 具体的には、チャットボットへの要望を公式ウェブサイト上で会話形式で現地語で説明するだけで済みます。オンデマンドで 3D 顔を生成し、ステッカーで覆うことができます。モデルの本物の「人肌」。
会話プロセス全体を通じて、ChatBot はユーザーのニーズに応じてガイドを行い、必要なモデルに関するユーザーの考えをできるだけ詳細に理解します。
体験中に、生成したい 3D 画像を ChatBot に記述しました。 左クリック クリック側面の生成ボタンを押すと、平均 10 秒以内に、説明に従って生成された 9 つの異なる 3D 顔の初期プロトタイプが画面に表示されます。 そのうちの 1 つを任意に選択すると、選択に基づいてモデルとマテリアルが引き続き最適化され、最終的に肌をカバーした後のモデルのレンダリング結果が表示され、さまざまな光と影の下でのレンダリング効果が表示されます。が表示されます - これらのレンダリングはブラウザ内でリアルタイムで完了します。## マウスを使用してドラッグしたり、頭を回転させたり、ズームインしてローカルの詳細を確認したりすることもできます。効果、毛穴、ニキビがはっきりと見えます:
ユーザーがプロンプト エンジニアリングの専門家である場合は、左側のボックスに「プロンプト」と直接入力して生成を完了することもできることに注意してください。
最後に、ワンクリックでダウンロードするだけで、プロダクション エンジンに直接接続して駆動できる 3D デジタル ヘッド アセットを取得できます。ベータ版 ヘアスタイル機能はまだ提供されていませんが、全体として、最終的に生成された 3D デジタル人財と説明コンテンツの一致度は高いです。
公式 Web サイトには、ChatAvatar ユーザーによって生成された、さまざまな人種、肌の色、さまざまな年齢、喜び、怒り、悲しみ、美しさ、醜い、太った、やせた、あらゆる種類の外観を備えた多数のアセットも表示されます。
3D デジタル ヒューマン アセットを生成するための ChatAvatar 製品のハイライトを要約しましょう:
まず第一に、使いやすいです
; 2 番目に、生成スパンが大きく、顔の特徴を変更することができ、
のように顔に合わせたマスクやタトゥーなども生成できます。##公式によると、プロモーション ビデオによると、ChatAvatar は、アバターなどの映画やテレビ作品のキャラクターなど、人間の範囲を超えたキャラクターをさらに生成することができます。
#最も重要なことは、ChatAvatar3D モデルと従来のレンダリング ソフトウェアの間の互換性の問題を解決するです。
これは、ChatAvatar によって生成された 3D アセットを、ゲーム、映画、テレビの制作プロセスに直接統合できることを意味します。 もちろん、ChatAvatar は、産業プロセスに正式に関与する前に、パブリック ベータの第 1 ラウンドに参加するようすでに何千人ものアーティストやプロのアート関係者を集めており、Twitter 上の関連トピックは 100 万近くのビューを獲得しています。そして注意。
どのツイートも 50,000 回以上再生される可能性があります。
無駄に「水道水」を溜め込んでしまったアインシュタインの3D顔を見てください、本当に似ていると言わざるを得ません。 ?
ControlNet と組み合わせると、直接撮影した一眼レフ写真と同等の効果が得られます: すでに多くのユーザーがいます この経験の後、私はこの Text-to-3D ツールをゲーム、映画、テレビなどの産業用途で大規模に使用することを想像し始めました。 ユーザーのフィードバックは、ChatAvatar チームが迅速に反復および更新し、より完全で需要に基づいた機能をタイムリーに提供するデータ フライホイールを形成するための重要な基盤となることが理解されています。実際、3D 業界の以前のデザイナーや企業にとって、ほとんどの AI テキストから 3D へのアプリケーションは効果がないわけではありませんが、実際に工業デザインのプロセスに実装するには依然として多くの困難があります。
ChatAvatar が今回これほど大きな話題を呼び起こした背後にある技術的な理由は何ですか?
業界の要件を満たす 3D アセットを生成する際の難しさは何ですか?
AI が人間に取って代わると言われていますが、実際のところ、Text-to-3D の分野だけを置き換えるのはそう簡単ではありません。
最大の困難は、AI によって生成されたものを
標準の 3D アセットに対する業界の要件を満たすようにすることです。
ここでの業界標準
をどのように理解していますか?プロの 3D アート デザインの観点から見ると、品質、制御性、生成速度という少なくとも 3 つの側面があります。1つ目は品質です。特に視覚効果を重視する映画、テレビ、ゲーム業界では、パイプラインの要件を満たす 3D アセットを生成するために、トポロジカルな規則性やテクスチャ マッピングの精度などの「業界の暗黙のルール」が AI 製品にとって最初に実行する必要があります。ほーむ。
トポロジ構造の規則性を例に挙げると、これは基本的に 3D アセットの配線の合理性を指します。
3D アセットの場合、トポロジの規則性は、オブジェクトのアニメーション効果、変更処理効率、テクスチャ描画速度に直接影響することがよくあります。
業界における 3D アート デザインの導入によると、 、手動リトポロジー 時間コストは、たとえ複数であっても 3D モデル自体の制作よりも高くなることがよくあります。これは、AIモデルによって生成された3Dアセットがどんなに素晴らしくても、生成された位相規則性が要件を満たしていなければ、根本的なコスト削減はできないことを意味します。テクスチャの正確さは言うまでもありません。
△Yingmo Technology の ChatAvatar プロジェクトは、生成品質、速度、標準互換性の点で以前の作品と比べて大幅に向上しました
Take一例として、現在ゲーム、映画、テレビ業界で一般的に必要とされている PBR テクスチャには、2D 画像 PSD ファイルの「レイヤー」に相当する、反射率マップや法線マップなどの一連のテクスチャが含まれています。 3D アセット パイプラインの制作に不可欠な数少ない条件の 1 つです。
しかし、現在のAIによって生成される3Dアセットは「全体」であることが多く、産業環境に合わせたPBRテクスチャを必要に応じて独自に生成できることは稀です。
2 つ目は制御性です。生成 AI の場合、生成されたコンテンツをどのようにしてより「制御しやすく」するかが、このテクノロジーに対する CG 業界のもう 1 つの主要な要件です。
有名な 2D 業界を例に挙げると、ControlNet が登場するまで、2D AIGC 業界は「半暗い進歩」の状態にありました。
つまり、AIは指定されたカテゴリの物体の画像を生成することはできますが、指定された姿勢の物体を生成することはできず、その生成効果はもっぱら迅速なエンジニアリングと「形而上学」に依存します。
ControlNet の登場以降、2D AI 画像生成の制御性は飛躍的に向上しましたが、3D AI に関しては、対応する効果を備えたアセットを生成するために、依然としてプロの Prompt 作品に大きく依存しています。 。
最後に生成速度です。 3D アート デザインと比較すると、AI 生成の利点は速度にありますが、AI レンダリングの速度と効果が手動レンダリングに匹敵しない場合、この技術は依然として業界に利益をもたらすことができません。
現在 AI 技術として非常に普及している NeRF を例にとると、その産業化には速度と品質の互換性の問題が発生しています。
NeRFによる3D生成は、生成品質が高いと時間がかかることが多いですが、速度を追求するとNeRFで生成した3Dアセットでも産業利用に全くなりません。
しかし、たとえこの問題が解決されたとしても、精度を損なうことなく NeRF を従来の CG 業界の主流エンジンと互換性を持たせる方法は依然として大きな問題です。
上記の業界標準化プロセスから、2 つの大きなボトルネックがあることを見つけるのは難しくありません。:
1 1 つは、プロンプト プロジェクトを手動で完了する必要があり、AI 以外の専門家や AI を理解していないデザイナーにとっては十分に使いにくいこと、もう 1 つは、生成された 3D アセットが業界標準を満たしていないことが多く、使用できないことです。彼らがどんなに美しくても。
これら 2 つの点を考慮して、ChatAvatar は に 2 つの具体的で効果的な解決策を提供しました。
ChatAvatar は、手動入力プロンプト エンジニアリング以外の第 2 の道を実現する一方で、「パーティ A モード」による直接対話を通じてニーズを説明するという、より一般の人に適した近道でもあります。
チームの公式 Twitter によると、この機能を実現するために、ChatAvatar は GPT の機能に基づいて会話の説明をポートレート機能に変換する方法を開発しました。
デザイナーは、GPT とチャットを続けて、必要な「フィーリング」を説明するだけで済みます。
GPT は、プロンプト プロジェクトの完了と結果の表示を自動的に支援します。 AI への提供:
# つまり、ControlNet が 2D 業界の「ゲーム チェンジャー」である場合、3D 業界にとっては、ChatAvatar はテキストを 3D に変換できます。は業界にとってまさにゲームチェンジャーです。
一方、より重要なことは、ChatAvatar が CG パイプラインと完全に互換性があること、つまり、生成されたアセットがトポロジー、制御性、速度の点で業界の要件を満たしていることです。
これは、3D アセットの生成後、ダウンロードしたコンテンツを さまざまなポストプロダクション ソフトウェアに直接インポートして二次編集を行うことができ、より高い制御性を実現できることを意味するだけではありません。 、生成されたモデルと高精度のマテリアル マップは、後のレンダリングで非常にリアルなレンダリング効果を実現することもできます。
このような効果を実現するために、チームは ChatAvatar 用の進歩的な 3D 生成フレームワーク DreamFace を開発しました。鍵となるのは、モデルのトレーニングに使用される基礎となるデータです。これは、世界初の大規模で高精度、複数の表情の顔の高精度データセットです。 。
このデータセットに基づいて、DreamFace は 製品レベルの 3 次元アセット の生成を効率的に完了できます。つまり、生成されたアセットには規則的なトポロジ、マテリアル、およびバインディングが含まれます。
DreamFace には主に、ジオメトリ生成、物理ベースのマテリアル拡散、アニメーション機能生成の 3 つのモジュールが含まれています。 DreamFace は、外部 3D データベースを導入することで、CG プロセスに準拠したアセットを直接出力できます。
#△生成されたアセットドリブン レンダリングの効果
上記 2 つの主要な問題を解決する本質技術的なボトルネックAIGCの激流によって時代の流れはさらに加速し、「検索」は「世代」に取って代わられる -
シャドウアイチームは「世代」が新たな世代を獲得する手段になると信じているデジタル資産の。 以前は、ニーズを満たす写真やアセットを見つける必要がある場合、通常は検索エンジンを使用してクエリを実行していました。 ChatAvatar プロジェクトのホームページに表示される巨大な「検索ボックス」と整ったアセット カードは検索エンジンのように見えますが、実際には、アセットを見つける方法は検索とはまったく異なります。△ChatAvatar プロジェクトのホームページ
Yingmu Technology CTO Zhang Qixuan が次のように紹介しました:
過去に、イラストが必要な場合は、おそらく結果を得るには、複数のライブラリで繰り返し検索するか、Photoshop 合成やハンドペイントなどのより複雑な方法を使用する必要があります。しかし、Stable Diffusionなどの技術の登場により、欲しいイメージをテキストで記述するだけで、ニーズに合わせた結果を直接生成できるようになりました。 これは、従来の資産ライブラリに大きな影響を与えます。 ChatAvatar の目標は、従来の検索ベースの 3D アセット ライブラリを 3D 生成に置き換えることです。 AIGC分野のネクストフロンティア一石二鳥を巻き起こしたChatGPT AI2.0時代に入り、画像を含むマルチモーダル情報にも注目が集まる、ビデオ、3D、その他の情報 AI。 3D 生成の分野に関する限り、映画、テレビ、ゲーム産業のいずれであっても、3D コンテンツの制作および消費市場はすでに十分な規模がありますが、制作における技術的な問題によって妨げられています。レベル。 たとえば、Transformer はテキストの分野で非常に人気がありますが、3D 生成の分野での使用は比較的限られています。 昨年の夏、文生图
分野が拡散モデルによって成果を上げたとき、人々はテキスト生成3D
にも同様の驚くべきパフォーマンスを期待し始めました。生成AIの3D制作技術が成熟すると、VRや動画などのコンテンツ制作が本格化します。
△拡散モデルMidjourney5.1
その背後にある AI スタートアップ企業 Yingmu Technology は、2020 年に上海科技大学の MARS 研究室から設立されました。設立後、Qiji Chuangtan と Sequoia から 2 ラウンドの投資を受けました種子。
同社は、コンピューター グラフィックスと生成 AI の研究と製品化に重点を置いています。 2021年、AIGCが大きな波紋を起こす前に、同社は中国初のAIGC ToCペイントアプリケーションであるWandをすでにローンチしており、この製品はAppStoreパーティションでトップになったこともあった。
そして、この先進的なチームはすでに業界ではよく知られており、平均年齢はわずか 25 歳です。
最初の商品化シナリオをデジタル担当者に具体的に据えた後、ChatAvatar は、AIGC を活用したこの方向への最新の進歩です。
ChatAvatar は、新しく発売された製品として、互換性、完成度、精度などの製品効果の点で Yingmo チームの期待を上回りました。しかし、ウー・ディさんの言葉を借りれば、ここに至るまでの過程は「非常に恥ずかしい」ものであったという。
最大の理由は「人手不足」に他なりません。現在、Shadow Eye はマルチカテゴリー 3D 生成技術の進歩を遂げており、次のステップは「3D 生成された大型モデル」を開始することです。
△Yingmo Technology、初のマルチモーダル モデルを 5 月に発売予定-プラットフォーム 3D 検索エンジン Rodin は、Sketchfab などの複数の 3D アセット プラットフォームを接続し、テキストによる 3D、写真による 3D、さらには 3D による 3D の検索をサポートします。検索エンジンはロダンの主要な形式にすぎず、Shadow Eye はロダンを大規模な 3D 生成モデルに構築します。 前進を続けるには、生成 AI を採用するより多くのエンジニアリング チーム、テクニカル アーティスト、製品人材がチームに加わる必要があります。研究開発を主な背景とするチームとして、そのような人材は依然として不足しています。 「人はすべてのものの尺度です。3D 分野での革新的な開発に参加し、共同で推進するには、より多くの志を同じくする人々が必要です。」 ご覧のとおり、ChatAvatar をゼロから構築する背後のテクノロジーは、AI 新興企業の継続的な革新を明らかにしており、小規模から大規模までの人材に対する同社の願望は、AIGC の波の下ですべてのセグメントが水面からの浮上を望んでいることを明らかにしています。水。 生成 AI を採用して、Text-to-3D 分野でゲームチェンジャーになることに意欲はありますか?
以上がカード1枚で30秒でバーチャル3D嫁をゲット! Text to 3D は、毛穴の詳細が明確な高精度のデジタル ヒューマンを生成し、Maya、Unity、その他の制作ツールとシームレスに接続しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。