ホームページ >テクノロジー周辺機器 >AI >マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

PHPz
PHPz転載
2023-04-09 22:31:011141ブラウズ

OpenAI によってリリースされた最近の DALLE-2 と Google によってリリースされた Imagen は、驚くべきテキストから画像への生成効果を実現し、広く注目を集め、多くの興味深いアプリケーションを生み出しました。テキストから画像への生成は、マルチモーダル画像の合成および編集の分野における典型的なタスクです。最近、マックス・プランク研究所、南洋理工研究所などの研究者らは、マルチモーダル画像合成・編集という大きな分野の研究状況と今後の発展について詳細な調査・分析を行った。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。


  • #論文アドレス: https://arxiv.org/pdf/2112.13592 .pdf
  • プロジェクトアドレス: https://github.com/fnzhan/MISE


マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

最初の章では、このレビューでは、マルチモーダル画像の合成と編集タスクの重要性と全体的な開発、およびその貢献について説明します。この文書と全体の構成。

#第 2 章では、画像の合成と編集をガイドするデータ モダリティに基づいて、このレビュー ペーパーでは、より一般的に使用される視覚的なガイダンス (セマンティック マップ、キー ポイント マップ、エッジなど) を紹介します。マップ )、テキスト ガイダンス、音声ガイダンス、シーン グラフ ガイダンス、および対応するモーダル データ処理方法と統一表現フレームワーク。

第 3 章では、画像合成と編集のモデル フレームワークに従って、GAN ベースの手法、自己回帰手法、拡散モデル手法、ニューラル手法など、現在のさまざまな手法を分類しています。放射線場(NeRF)法。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

GAN ベースの手法では一般に条件付き GAN と無条件 GAN 逆変換が使用されるため、この論文では1 つのカテゴリは、イントラモーダル条件 (例: セマンティック マップ、エッジ マップ)、クロスモーダル条件 (例: テキストと音声)、および GAN​​ インバージョン (統一モダリティ) にさらに分類され、詳細に説明されます。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。#GAN ベースの手法と比較して、自己回帰モデル手法はマルチモーダル データをより自然に処理でき、現在人気のある Transformer モデルを利用できます。自己回帰手法は通常、まずベクトル量子化エンコーダを学習して画像をトークン シーケンスとして離散的に表現し、次に自己回帰的にトークンの分布をモデル化します。テキストや音声などのデータをトークンとして表現し、自己回帰モデリングの条件として使用できるため、さまざまなマルチモーダルな画像合成や編集作業を単一のフレームワークに統合できます。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。


最近では、猛烈な拡散モデルも広く使われています。合成と編集のタスク。たとえば、驚くべき DALLE-2 と Imagen は両方とも普及モデルに基づいて実装されています。 GAN と比較して、拡散生成モデルには、静的なトレーニング目標や容易なスケーラビリティなど、いくつかの優れた特性があります。この論文では、条件付き拡散モデルと事前学習済み拡散モデルに基づいて既存の手法を詳細に分類して分析します。 マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。


上記の方法は、主に 2D 画像のマルチモーダル合成と編集に焦点を当てています。最近の神経放射線場 (NeRF) の急速な発展により、3D 認識のためのマルチモーダル合成と編集がますます注目を集めています。 3D 認識のためのマルチモーダル合成と編集は、マルチビューの一貫性を考慮する必要があるため、より困難なタスクです。この論文では、単一シーン最適化 NeRF、生成 NeRF、および NeRF インバージョンの 3 つの方法に関する既存の研究を分類し、要約します。

続いて、このレビューでは、上記の 4 つのモデル手法を比較し、説明します。全体として、現在の最先端モデルは GAN よりも自己回帰モデルと拡散モデルを優先しています。マルチモーダル合成および編集タスクにおける NeRF の応用は、この分野の研究に新しい窓を開きます。

マルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。


#第 4 章では、このレビューでは、マルチモーダル合成およびセットの編集の分野でよく使われるデータをまとめます。対応するモーダル注釈が提供され、各モダリティの典型的なタスク (セマンティック画像合成、テキストから画像への合成、および音声ガイド付き画像編集) について現在の方法が定量的に比較されます。

#第 5 章では、大規模なマルチモーダル データセット、正確で信頼性の高い評価指標、効率的なネットワーク アーキテクチャなど、この分野の現在の課題と将来の方向性について議論および分析しています。 、および 3D 知覚の開発の方向性。

第 6 章と第 7 章では、この分野の潜在的な社会的影響について詳しく説明し、それぞれ記事の内容と貢献を要約しています。

以上がマルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。