検索
ホームページテクノロジー周辺機器AI「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

一般的な画像編集操作では、画像合成とは、ある画像の前景オブジェクトを別の背景画像と組み合わせて合成画像を生成するプロセスを指します。合成画像の視覚効果は、次の図に示すように、前景オブジェクトを 1 つの画像から別の背景画像に転送するのと似ています。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

芸術作品、ポスター デザインにおける画像合成、電子商取引、仮想現実、データ拡張などの分野で広く使用されています

単純なカット アンド ペーストで得られる合成画像には多くの問題が発生する可能性があります。以前の研究では、画像合成は異なるサブ問題をそれぞれ解決するために異なるサブタスクを導き出しました。たとえば、画像ブレンディングは、前景と背景の間の不自然な境界を解決することを目的としています。画像の調和は、背景と調和するように前景の照明を調整することを目的としています。遠近感の調整は、前景のポーズを背景と一致するように調整することを目的としています。オブジェクトの配置は、前景オブジェクトの適切な位置、サイズ、および遠近角を予測することを目的としています。影の生成は、背景の前景オブジェクトに対して適切な影を生成することを目的としています。

下の図に示すように、以前の研究では、上記のサブタスクを直列または並列で実行して、現実的で自然な合成画像を取得していました。シリアル フレームワークでは、実際のニーズに応じていくつかのサブタスクを選択的に実行できます。

パラレル フレームワークでは、現在一般的な方法は拡散モデルを使用することです。前景境界ボックスを含む背景画像と前景オブジェクト画像を入力として受け取り、最終的な合成画像を直接生成します。これにより、前景オブジェクトと背景画像がシームレスにブレンドされ、照明と影の効果が適切になり、姿勢が背景に適応されます。

この並列フレームワークは、複数のサブタスクを同時に実行するのと同等であり、選択的に実行することはできませんこれは制御できず、前景オブジェクトの姿勢や色に不必要または不合理な変更をもたらす可能性があります。

書き直す必要があるのは次のとおりです:

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
# #並列フレームワークの制御性を強化し、いくつかのサブタスクを選択的に実行するために、制御可能な画像合成モデル Controlable Image Composition (ControlCom) を提案しました。以下の図に示すように、拡散モデルの条件情報として指標ベクトルを使用して、合成画像の前景オブジェクトのプロパティを制御します。指示ベクトルは、前景オブジェクトの照明属性と姿勢属性をそれぞれ調整するかどうかを各次元で制御する 2 次元のバイナリ ベクトルで、1 は調整を意味し、0 は保持を意味します。前景の照明も前景の姿勢も変更せず、オブジェクトを背景イメージにシームレスにブレンドするだけで、これはイメージ ブレンディングと同等です。 (1,0) は、背景と調和するように前景の照明を変更するだけで、前景の姿勢を保持することを意味します。これは画像の調和に相当します。 (0,1) は、背景に一致するように前景のポーズを変更するだけで、前景の照明を保持することを意味します。これはビュー合成と同等です。 (1,1) は、前景の照明と姿勢を同時に変更することを意味します。これは、現在の制御不能な並列画像合成と同等です。

4 つのタスクを同じフレームワークに組み込み、4 つのタスクを実装します。インジケーター ベクトル機能を介した 1 つのオブジェクト ポータルにより、オブジェクトをシーン内の指定された場所に輸送できます。この研究は、上海交通大学と Ant Group の共同研究です。コードとモデルは間もなくオープン ソースになる予定です。

論文を表示するには、次のリンクをクリックしてください: https: //arxiv.org/ abs/2308.10040「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
コード モデル リンク: https://github.com/bcmi/ControlCom-Image-Composition

下の図では、次の関数を示しています。制御可能な画像合成

左の列では、前景オブジェクトの姿勢は元々背景画像に合わせられていますが、ユーザーは前景オブジェクトの姿勢を保持したい場合があります。以前のメソッド PbE [1] および ObjectStitch [2] は、前景オブジェクトのポーズに不必要で制御不能な変更を加えます。私たちのメソッドの (1,0) バージョンは、前景オブジェクトのポーズを保持し、調和のとれた照明で前景オブジェクトを背景画像にシームレスにブレンドすることができます。 「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
右側の列では、前景オブジェクトは背景照明と同じであると考えられます。以前の方法では、車両や衣服などの前景オブジェクトの色に予期しない変化が生じる可能性があります。私たちの方法 (バージョン 0.1) は、前景オブジェクトの色を維持しながら、同時に背景画像に自然に溶け込むようにポーズを調整することができます。
「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

次に、メソッドの 4 つのバージョン (0,0)、(1,0)、(0,1)、(1,1) の結果をさらに示します。異なるインジケーターベクトルを使用すると、私たちの方法は前景オブジェクトのいくつかの属性を選択的に調整し、合成画像の効果を効果的に制御し、ユーザーのさまざまなニーズを満たすことができることがわかります。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

書き直す必要があるのは、4 つの機能を実現できるモデル構造とは何かということです。私たちの手法は次のモデル構造を採用しています. モデルの入力には, 前景境界ボックスを持つ背景画像と前景オブジェクト画像が含まれます. 前景オブジェクトの特徴と指標ベクトルは拡散モデルに結合されます.

我々は再抽出します前景のオブジェクトのグローバル フィーチャとローカル フィーチャを結合し、最初にグローバル フィーチャ、次にローカル フィーチャを融合します。ローカル フュージョン プロセス中、特徴の調整に位置合わせされた前景特徴マップを使用して、より詳細なディテールの保持を実現します。同時に、インジケーター ベクトルはグローバル フュージョンとローカル フュージョンの両方で使用され、前景オブジェクトのプロパティをより完全に制御します。

事前トレーニングされた安定拡散アルゴリズムを使用して、190 万枚の画像に基づいてモデルをトレーニングします。画像を開きます。 4 つのサブタスクを同時にトレーニングするために、一連のデータ処理および強化プロセスを設計しました。データとトレーニングの詳細については、論文

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

COCOEE データセットと自分たちで構築したデータセットでテストしました。従来の手法では制御不能な画像合成しか実現できなかったため、(1,1) バージョンと従来の手法とを比較しました。比較結果は下図のようになりますが、PCTNetは物体の細部を保持できる画像調和手法ですが、前景の姿勢を調整したり、前景の物体を完成させることはできません。他の方法でも同じ種類のオブジェクトを生成できますが、服のスタイル、カップの質感、鳥の羽の色などの詳細を保持する効果が低くなります。

私たちの方法はそれに比べて優れています。 . 前景オブジェクトの詳細を保持し、不完全な前景オブジェクトを完成させ、背景に対する前景オブジェクトの照明、姿勢、適応を調整します。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

この作業は制御可能なものです。画像合成に初めて挑戦しました。タスクは非常に難しく、まだ多くの欠点があり、モデルのパフォーマンスは十分に安定して堅牢ではありません。さらに、照明やポーズに加えて、前景オブジェクトの属性もさらに洗練される可能性があり、よりきめ細かく制御可能な画像合成をどのように実現するかは、より困難な課題です

当初の意図を維持するために変更点。書き直す必要がある内容は次のとおりです。参考文献

Yang、Gu、Zhang、Zhang、Chen、Sun、Chen、Wen (2023)。サンプルベースの画像編集と拡散モデル。 CVPR

[2] Song Yongzhong、Zhang Zhi、Lin Zhilong、Cohen、S. D.、Price、B. L.、Zhang Jing、Jin Suying、Arriaga、D. G. 2023 年。 ObjectStitch: 生成的なオブジェクト合成。 CVPR

以上が「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますMicrosoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ます中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますDockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用する6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますGoogleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますDescopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。