OpenAI によってリリースされた最近の DALLE-2 と Google によってリリースされた Imagen は、驚くべきテキストから画像への生成効果を実現し、広く注目を集め、多くの興味深いアプリケーションを生み出しました。テキストから画像への生成は、マルチモーダル画像の合成および編集の分野における典型的なタスクです。最近、マックス・プランク研究所、南洋理工研究所などの研究者らは、マルチモーダル画像合成・編集という大きな分野の研究状況と今後の発展について詳細な調査・分析を行った。
- #論文アドレス: https://arxiv.org/pdf/2112.13592 .pdf
- プロジェクトアドレス: https://github.com/fnzhan/MISE
最初の章では、このレビューでは、マルチモーダル画像の合成と編集タスクの重要性と全体的な開発、およびその貢献について説明します。この文書と全体の構成。
#第 2 章では、画像の合成と編集をガイドするデータ モダリティに基づいて、このレビュー ペーパーでは、より一般的に使用される視覚的なガイダンス (セマンティック マップ、キー ポイント マップ、エッジなど) を紹介します。マップ )、テキスト ガイダンス、音声ガイダンス、シーン グラフ ガイダンス、および対応するモーダル データ処理方法と統一表現フレームワーク。
第 3 章では、画像合成と編集のモデル フレームワークに従って、GAN ベースの手法、自己回帰手法、拡散モデル手法、ニューラル手法など、現在のさまざまな手法を分類しています。放射線場(NeRF)法。
#GAN ベースの手法と比較して、自己回帰モデル手法はマルチモーダル データをより自然に処理でき、現在人気のある Transformer モデルを利用できます。自己回帰手法は通常、まずベクトル量子化エンコーダを学習して画像をトークン シーケンスとして離散的に表現し、次に自己回帰的にトークンの分布をモデル化します。テキストや音声などのデータをトークンとして表現し、自己回帰モデリングの条件として使用できるため、さまざまなマルチモーダルな画像合成や編集作業を単一のフレームワークに統合できます。
最近では、猛烈な拡散モデルも広く使われています。合成と編集のタスク。たとえば、驚くべき DALLE-2 と Imagen は両方とも普及モデルに基づいて実装されています。 GAN と比較して、拡散生成モデルには、静的なトレーニング目標や容易なスケーラビリティなど、いくつかの優れた特性があります。この論文では、条件付き拡散モデルと事前学習済み拡散モデルに基づいて既存の手法を詳細に分類して分析します。
上記の方法は、主に 2D 画像のマルチモーダル合成と編集に焦点を当てています。最近の神経放射線場 (NeRF) の急速な発展により、3D 認識のためのマルチモーダル合成と編集がますます注目を集めています。 3D 認識のためのマルチモーダル合成と編集は、マルチビューの一貫性を考慮する必要があるため、より困難なタスクです。この論文では、単一シーン最適化 NeRF、生成 NeRF、および NeRF インバージョンの 3 つの方法に関する既存の研究を分類し、要約します。 続いて、このレビューでは、上記の 4 つのモデル手法を比較し、説明します。全体として、現在の最先端モデルは GAN よりも自己回帰モデルと拡散モデルを優先しています。マルチモーダル合成および編集タスクにおける NeRF の応用は、この分野の研究に新しい窓を開きます。 #第 4 章では、このレビューでは、マルチモーダル合成およびセットの編集の分野でよく使われるデータをまとめます。対応するモーダル注釈が提供され、各モダリティの典型的なタスク (セマンティック画像合成、テキストから画像への合成、および音声ガイド付き画像編集) について現在の方法が定量的に比較されます。 第 6 章と第 7 章では、この分野の潜在的な社会的影響について詳しく説明し、それぞれ記事の内容と貢献を要約しています。
以上がマルチモーダル画像合成と編集は非常に人気があり、マックス プランク研究所、南洋理工研究所などが詳細なレビューを発表しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ドリームウィーバー CS6
ビジュアル Web 開発ツール

WebStorm Mac版
便利なJavaScript開発ツール
