ホームページ > 記事 > テクノロジー周辺機器 > 2 文で言えば、AI に VR シーンを生成させましょう!それとも 3D または HDR パノラマのようなものですか?
Produced by Big Data Digest
Author: Caleb
最近、ChatGPT が非常に人気があると言えます。
OpenAIは11月30日にチャットロボット「ChatGPT」をリリースし、テスト用に無料公開して以来、中国で人気を博している。
#ロボットに話しかけるということは、ロボットに次のような特定の命令を実行するように依頼することです。キーを入力すると、AI が対応する画像を生成します。 これは何も珍しいことではないようですが、OpenAI も 4 月に DALL-E の新しいバージョンを更新しましたよね? OpenAI、あなたは何歳ですか? (なぜいつもあなたなのですか?) 消化バクテリアが、生成された画像が 3D 画像、HDR パノラマ、または VR ベースの画像コンテンツであると言ったらどうしますか? 最近、シンガポールの南洋理工大学の研究チームがこのようなAIを提案したところ、ユーザーが明確に記述されたシーンをテキストで入力する限り、システムはリアルな3Dシーンを生成することができます。 まず効果を見てみましょう 例えば、「緑の木々に囲まれた日中の湖の茶色の木の桟橋」と入力すると、システムはこのような答えを返します. ライトとディテールのエフェクトはまさに Laman です。 研究のタイトルは「Text2Light: ゼロショット テキスト駆動 HDR パノラマ生成」として公開されました。論文リンク: https://arxiv.org/abs/2209.09898
トレーニングなしで 3D HDRI を生成可能
HDR パノラマとも呼ばれる高品質 HDRI (ハイ ダイナミック レンジ イメージ) は、現在、リアルな 360 度 3D シーンの作成に使用されています。人気の方法。
HDRI のキャプチャの難しさを考慮すると、AI を使用して 3D シーンを生成する技術は数多くありますが、基本的には一連のパラメータ設定や大量のデータが必要です。 。
そこで研究者らは、4K 解像度の HDRI を生成するゼロショット テキスト駆動フレームワーク、つまり Text2Light を提案しました。プロセス全体で対応するトレーニング データは必要ありません。
HDRI を生成するプロセスは 2 つのステップに分けることができます。
最初のステップでは、入力テキストがデュアル コードブックの離散表現に基づいて LDR パノラマに変換されます。入力テキストは、まず事前トレーニングされた CLIP モデルによってテキスト埋め込みにマッピングされ、次に、テキスト条件付きグローバル サンプラーが、入力テキストに従ってグローバル コードブックから全体のセマンティクスをサンプリングすることを学習し、その後、構造認識ローカル サンプラーが合成を行います。ローカルパッチを適用し、合成を行います。
2 番目のステップは、連続表現としての構造化潜在エンコーディングに従って、最初のステージの LDR 結果をアップグレードすることです。研究者らが提案した超解像逆トーンマッピングオペレーター(SR-iTMO)は、パノラマの空間解像度とダイナミックレンジを同時に向上させることができる。
このようにして、HDRI をトレーニングすることなく 4K 解像度を生成できます。これまでで最も先進的な画像生成モデルにより、LDR から HDR への変換の不安定性が解消され、学習用のパノラマとテキストのペアが作成されます。
ただし、この技術はまだ研究の初期段階にあり、低解像度の 360 度パノラマ画像コンテンツしか生成できません。ただし、研究チームは現在の技術を次の分野で使用する予定です。アップグレード用のパノラマ画像を生成し、HDR 画像強化効果を追加して、生成された 3D 画像や VR シーンをよりスムーズで魅力的なものにします。
テキスト ドライバーを使用して HDRI を生成する
次に、いくつかの操作プロセスを見てみましょう。
まずチェックポイントをダウンロードし、チームが屋外 (ローカル サンプラー屋外) シーンと屋内 (ローカル サンプラー屋内) シーンのモデルをそれぞれリリースしていることに注意してください。
文から HDR パノラマを生成:
python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
シリーズのテキスト説明から生成HDR パノラマ:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
低解像度を生成 ( 512x1024) LDR パノラマ:
### assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npyHDR パノラマこの方法で生成されたものは、最新のグラフィックスで直接使用できます。例として、3 次元 CG ソフトウェア Blender でサンフランシスコの風景をレンダリングすると、紫とピンクの空の下の山並みの風景写真を入力すると、次のような画像が得られます。 #
为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。
解包,检查检查Blender的使用情况:
# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help
添加别名:
# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"
然后回到Text2Light代码库,为不同的呈现设置运行以下命令:
blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI
就能得到这样的结果:
该项目也在GitHub上开源了:
GitHub链接:https://github.com/FrozenBurning/Text2Light
这个项目也得到了不少网友的好评。有网友就感叹到,“人类的想象力是没有边界的”,照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。
也有网友表示,当试图输入“一个四层半的榻榻米房间,房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”,仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中,“这应该是一个有异国情调的房间”。
对这个速成HDR全景图的AI,大家有什么看法呢?也欢迎小伙伴们在评论区分享自己的使用心得~
相关报道:https://www.itmedia.co.jp/news/articles/2210/11/news036.html
以上が2 文で言えば、AI に VR シーンを生成させましょう!それとも 3D または HDR パノラマのようなものですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。