検索
ホームページテクノロジー周辺機器AI一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

指定された入力 (テキスト プロンプト、画像、3D 形状など) から 3D コンテンツを作成すると、コンピューター ビジョンやグラフィックスの分野で重要な用途が得られます。しかし、この問題は難しく、通常、プロのアーティスト (テクニカル アーティスト) が 3D コンテンツを作成するのに多くの時間とコストを費やす必要があります。同時に、多くのオンライン 3D モデル ライブラリのリソースは、通常、マテリアルのない裸の 3D モデルです。これらを現在のレンダリング エンジンに適用したい場合は、高品質のマテリアル、ライト、法線マップを作成するテクニカル アーティストが必要です。彼らのために。 。したがって、自動化され、多様でリアルな 3D モデル アセット生成を実現する方法があれば有望です。

したがって、華南理工大学、香港理工大学、異次元知能、彭城研究所、およびその他の機関の研究チームは、テキスト駆動型の3 次元モデル スタイライゼーション メソッド - TANGO、このメソッドは、指定された 3D モデルとテキストに対して、より現実的な SVBRDF マテリアル、法線マップ、およびライトを自動的に生成でき、低品質の 3D モデルに対する堅牢性が優れています。この研究は NeurIPS 2022 に採択されました。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

プロジェクトのホームページ: https://cyw-3d.github.io/tango/

モデル効果

特定のテキスト入力と 3D モデルに対して、TANGO は 3D モデルの表面で自己交差することなく、より精細で写真のようにリアルな詳細を生成できます。以下の図 1 に示すように、TANGO は滑らかなマテリアル (金、銀など) にリアルな反射効果を提示するだけでなく、不均一なマテリアル (レンガなど) のポイントごとの法線を推定することもできます。でこぼこした効果。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

図 1. TANGO の様式化された結果

TANGO は実際のレンダリング結果の鍵は、シェーディング モデルの各コンポーネント (SVBRDF、法線マップ、ライト) を正確に分離し、個別に学習することです。最終的に、これらの分離されたコンポーネントは球面ガウス微分可能レンダラーを通じて出力され、CLIP に送信されてテキストが入力されます。損失を計算します。コンポーネントを分離する理論的根拠を実証するために、研究では各コンポーネントを視覚化しました。図 2 (a) は「レンガで作られた靴」の様式化された結果を示し、(b) は 3D モデルの元の法線方向を示し、(c) は 3D モデル上の各点に対して TANGO によって予測された法線方向を示します。 、(d)(e)(f)はそれぞれSVBRDFの拡散反射、粗さ、鏡面反射パラメータを表します。(g)はTANGOによって予測される球面ガウス関数で表される環境光です。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

#図 2 分離されたレンダリング コンポーネントの視覚化

同時に, ResearchはTANGOが出力した結果を編集することもできます。たとえば、図 3 では、他のライト マップを使用して TANGO の結果を再照明することができ、図 4 では、粗さと鏡面反射率のパラメータを編集して、オブジェクト表面の反射の度合いを変更できます。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。


図 3 TANGO の様式化された結果を再ライトする

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

図 4 オブジェクトのマテリアルの編集

さらに、TANGO は予測法線マップを使用してオブジェクト表面の詳細を追加するため、頂点の数が少ない 3 次元モデルに対しても非常に堅牢です。図 5 に示すように、元のランプとエイリアンのモデルにはそれぞれ 41160 個と 68430 個の顔がありましたが、研究者らは元のモデルをダウンサンプリングして、わずか 5000 個の顔を持つモデルを取得しました。元のモデルとダウンサンプリングされたモデルでの TANGO のパフォーマンスは基本的に同様ですが、Text2Mesh では低品質モデルで深刻な自己交差現象が見られることがわかります。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

#図 5 ロバストネス テスト

原理と方法

TANGO は主に、テキストに基づいて 3 次元オブジェクトを様式化する方法に焦点を当てています。この分野で最も関連性のある現在の研究は Text2Mesh です。Text2Mesh は、事前トレーニングされたモデル CLIP をガイドとして使用し、3D モデルの表面頂点の色と位置オフセットを予測して様式化を実現します。ただし、単にサーフェスの頂点カラーを予測するだけでは非現実的なレンダリング効果が生じることが多く、不規則な頂点オフセットにより深刻な自己交差が発生する可能性があります。そこで本研究では、従来の物理ベースのレンダリングパイプラインを利用して、レンダリングプロセス全体をSVBRDFマテリアル、法線マップ、ライトの予測プロセスに分離し、分離された要素をそれぞれ球面ガウス関数で表現します。この物理ベースのデカップリング手法により、TANGO はリアルなレンダリング効果を正確に生成でき、優れた堅牢性を備えています。

一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。

#図 6 TANGO のフローチャート

図 6 にフローチャートを示します。 TANGOの作業工程を紹介します。 3D モデルとテキスト (写真の「金で作られた靴」など) が与えられると、研究ではまず 3D モデルを単位球にスケールし、次に 3D モデルの近くのカメラ位置をサンプリングします。このカメラ位置で光線を放射します。 3次元モデル

#pとの交点とその交点の法線方向#npを求めます。次に、#xxpnp が SVBRDF ネットワークとノーマル ネットワークに送信され、ポイントの材料パラメーターとメソッドが予測されます。 . ラインの方向と同時に、複数の球面ガウス関数を使用してシーン内の照明を表現します。研究では、トレーニングの反復ごとに、微分可能な球面ガウス レンダラーを使用して画像をレンダリングし、次に CLIP モデルの画像エンコーダーを使用して拡張画像をエンコードし、最後に CLIP モデルが勾配を逆伝播してすべての学習可能なパラメーターを更新します。 概要

この論文では、入力テキストに基づいて 3D モデルのリアルな外観スタイルを生成し、低品質のモデルに対して堅牢な新しい手法である TANGO を提案します。外観スタイルを SVBRDF、局所的な幾何学的変化 (点ごとの法線)、および照明条件から切り離し、これらを球面ガウス関数として表現およびレンダリングすることで、CLIP を損失監視として使用し、学習することができます。

既存の方法と比較して、TANGO は低品質の 3D モデルであっても非常に堅牢です。ただし、自己交差を避けながら法線で点ごとに幾何学的なディテールを与える手法では、表現できる素材表面の凹凸度合いも若干低下してしまうため、頂点オフセットに基づくTANGOやText2Meshは、本研究では有効であると考えられる。これは良い予備的な試みであり、さらなる追跡調査のきっかけとなるでしょう。

以上が一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境