Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題-AI-php.cn

ホームページ

テクノロジー周辺機器

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 02, 2024 am 09:55 AM

業界再描画

最近、突然の拡大効果で話題を呼んだ「AI拡張」機能は、オートフィルのおもしろくて面白い結果が度々話題となり、ネット上でブームを巻き起こしています。ユーザーも積極的にこの機能を試し、その180度の大きな変化にも人々を驚かせ、話題の人気は高まり続けました。

これは、笑いと熱意を呼び起こすと同時に、AI が現実世界の問題を解決し、ユーザーエクスペリエンスを向上させるのに本当に役立つかどうかに人々が常に注目していることを意味します。 AIGC テクノロジーの急速な発展に伴い、AI 適用シナリオの実装が加速しており、新たな生産性革命が到来することを示しています。

最近、Meitu の WHEE などの製品は、AI 画像拡大機能と AI 画像修正機能を開始し、簡単なプロンプト入力で、ユーザーは画像を修正したり、画面要素を削除したり、画面を自由に拡大したりすることができます。素晴らしいエフェクトにより、ツールを使用する敷居が大幅に下がり、ユーザーに効率的で高品質な画像作成体験をもたらします。

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) が結果を排除します

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) が結果を置き換えます効果前

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) 置換効果 Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) AI 画像変更効果

強力なモデル機能により、思いどおりに画像を編集できます

Meitu AI 部分再描画モデルは、拡散モデル (Diffision Model) テクノロジーに基づいて完全なインペイント & アウトペイントモデルフレームワークを構築し、内部領域を再描画しますターゲットの削除や外部領域の拡張などのタスクは 1 つのソリューションに統合され、いくつかの特定の効果の問題に対して特別な最適化設計が行われます。

MiracleVision モデルは、Vincentian グラフモデルです。最初の畳み込み層を変換し、unet 全体を微調整することで修復タスクに適応させることができますが、これには、unet の元の重みを変更する必要があります。トレーニングデータの量が不十分な場合、モデルのパフォーマンスの低下につながります。

したがって、MiracleVision の既存の生成機能を最大限に活用するために、チームは部分再描画モデルで MiracleVision の unet モデルを直接微調整するのではなく、controlnet を使用してマスクの入力ブランチを追加します。制御されている。

同時に、トレーニングコストを節約し、推論を高速化するために、圧縮されたコントロールネットモジュールをトレーニングに使用して、計算量を可能な限り削減します。トレーニングプロセス中に、unet モデルのパラメーターが固定され、controlnet モジュールのみが更新され、最終的にはモデル全体が修復できるようになります。

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

Meitu AI はモデルアーキテクチャ図を部分的に再描画します

アウトペイントタスクはクロップタスクの逆の操作です。トリミングタスクは、元の画像を画像の境界に沿ってトリミングし、必要な部分のみを保持し、画像コンテンツの減算操作を行うことです。一方、外側のタスクは、モデルの生成機能を使用して、画像の境界に沿って外側に拡張することです。何もないところから作成する元々存在しないコンテンツを抽出することは、画像コンテンツの追加操作です。

本質的に、アウトペイントタスクは、マスク領域がイメージの周縁に配置されることを除いて、特別なインペイントタスクとみなすこともできます。

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision AI 拡張効果

アウトペイントタスクのマスク領域は画像からしか描画できないためガイダンス情報は内部的に取得され、他の方向は画像の境界となるため、生成されるコンテンツはよりランダムで発散的になります。画像の周囲の空白領域を埋めて画像拡大の精度を確保するために、チームはシーン認識アルゴリズムを利用して画像のスタイルと内容を推測し、画像内容の相関関係を最大限に利用してコピーしました。拡張されたエッジでミラーリングすることで元の画像のピクセルを復元し、ランダムノイズを重ねてモデルに適切な初期事前分布を提供することで、生成されたコンテンツの合理性を確保し、境界遷移をよりスムーズにします。

さまざまなトレーニング戦略により、オブジェクトの生成と削除を自由に制御します

一般的な拡散モデルは、修復タスクを実行するときに、削除するよりも置き換えることに優れています。特定のターゲットを削除する必要がある場合、モデルは、特にマスクが存在しない場合、マスク領域に元から存在しないいくつかの新しい前景ターゲットを簡単に描画できます。エリアこの現象は、これらのターゲットがプロンプトに表示されない場合でも、エリアが比較的大きい場合に特に顕著です。その理由は主に次の 3 つの側面です:

1. トレーニングセットのプロンプトは通常、画像にあるもののみを説明し、画像にないものは説明しないため、トレーニングされたモデルはベースにすることができます。 on プロンプトにターゲットを生成するように指示するのは簡単ですが、ターゲットの生成を停止するのは困難です。分類子なしのガイダンス戦略を使用しても、不要なオブジェクトを否定的な単語に追加することでこのターゲットの生成を抑制できますが、考えられるすべてのターゲットを否定的な単語に書き込むことは不可能であるため、モデルは依然としていくつかの予期しないターゲットを生成する傾向があります。 ;

2. 訓練データの分布から、大規模な画像訓練セット内のほとんどの画像は前景と背景で構成されているため、純粋な背景画像が占める割合は比較的小さく、これは拡散がモデルはトレーニング中に潜在的なルールを学習しました。つまり、画像内にターゲットの前景が存在する可能性が高く (プロンプトで言及されていない場合でも)、これによりモデルは修復タスクを実行するときに、出力画像がトレーニング中の分布に近づくように、マスク領域に何かが生成される可能性が高くなります。

3. 塗りつぶされるマスク領域の形状には、特定の意味情報も含まれる場合があります。たとえば、他のガイダンスがなければ、モデルはマスク領域に新しい猫を猫の形で塗りつぶす傾向が強くなり、除去タスクが失敗します。

MiracleVision でターゲット生成とターゲット除去の両方を実行できるようにするために、チームはマルチタスクトレーニング戦略を採用しました:

1. トレーニング段階では、マスク領域がターゲットに該当するとき、純粋な背景領域が少ない場合は、特定のプロンプトキーワードをトリガーガイドワードとして追加し、モデルの推論段階で、このキーワードを前方ガイドワードとしてプロンプト埋め込みに追加して、モデルがより多くの背景領域を生成するように促します。

2. 純粋な背景画像がトレーニングセット全体で占める割合は比較的小さいため、トレーニングへの寄与を高めるために、各トレーニングバッチで、一定の割合の背景画像が手動でサンプリングされ、背景画像に追加されます。トレーニングにより、背景画像の割合が全体的に安定したままになります。

3. マスク形状に対するモデルのセマンティック依存性を減らすために、トレーニング段階で異なる形状のさまざまなマスクがランダムに生成され、マスク形状の多様性が高まります。

高精度テクスチャ生成、より自然な融合

トレーニングセット内の高精細テクスチャデータは、トレーニングデータ全体のほんの一部にすぎないため、インペイントタスクを実行する場合、通常、非常に豊かなテクスチャを含む結果は生成されません。その結果、元のテクスチャが豊かなシーンに不自然な融合や境界感が生じます。

この問題を解決するために、チームは独自に開発したテクスチャ詳細モデルをガイドモデルとして使用し、MiracleVision による生成品質の向上とオーバーフィッティングの抑制を支援し、生成された領域が生成された領域の間に収まるようにしました。元の画像の領域と他の領域をより適切に組み合わせることができます。

Meitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

元の画像 vs テクスチャ詳細を追加していない画像 vsMiracleVision 拡大画像効果

#より速く、より良い効果、より効率的なインタラクション!

拡散モデルソリューションでは、通常、推論中に複数ステップの逆拡散プロセスが必要となり、その結果、単一画像の処理に時間がかかりすぎます。生成品質を維持しながらユーザーエクスペリエンスを最適化するために、Meitu Imaging Research Institute (MT Lab) チームは AI 部分再描画テクノロジーの特別なチューニングソリューションを作成し、最終的にパフォーマンスと効果の最適なバランスを実現しました。

まず、MiracleVision の前処理、後処理および推論プロセスにおける多数の行列計算が、可能な限り並列コンピューティングのために GPU に移植されるため、効果的に計算が高速化され、計算量が削減されます。 CPUの負荷。同時に、画像を組み立てるプロセス中に、可能な限りレイヤーを融合し、FlashAttendant を使用してビデオメモリの使用量を削減し、推論パフォーマンスを向上させ、さまざまな NVIDIA グラフィックスの GPU コンピューティングパワーの使用を最大化するためにカーネル実装を調整します。カード。

さらに、MiracleVision は、独自に開発したモデルパラメーター定量化手法を利用して、明らかな精度の損失なしに 8 ビットに量子化されます。 GPU グラフィックスカードによって 8 ビット量子化のサポートが異なるため、混合精度戦略を革新的に採用して、さまざまなサーバーリソース環境下で最適な演算子を適応的に選択し、全体的な高速化の最適なソリューションを実現します。

ユーザー入力画像の解像度が高い場合、サーバーリソースと時間コストの制限により、元の解像度で直接推論を実行することは困難です。この点に関して、チームはまず画像の解像度を適切なサイズに圧縮し、次に MiracleVision に基づいて推論を実行し、次に超解像度アルゴリズムを使用して画像を元の解像度に復元し、次に元の画像との画像融合を実行しました。これにより、鮮明な画像が生成され、推論プロセス中のメモリ使用量と実行時間が節約されます。

Meitu は Samsung と緊密に協力し、AI を使用した新しいモバイル画像編集エクスペリエンスを作成します

サムスン電子は1月25日、中国でGalaxy S24シリーズの新製品発表会を開催した。 MeituはSamsungとの協力を深め、Samsungの新型Galaxy S24シリーズの携帯電話アルバム向けに新たなAI画像編集エクスペリエンスを構築するとともに、Meitu画像研究所（MT Lab）が独自に開発したジェネレーティブ編集機能「AI画像拡張機能」と「AI画像修正機能」を提供します。モバイル画像の編集と作成のための新しいスペースを開くために正式にリリースされました。

AI画像編集機能により、編集したい画像を長押しするだけで、画像の移動や削除、サイズ変更などが簡単に行えます。さらに、写真の水平線が垂直でない場合、AI画像拡大機能は、ユーザーが角度を調整した後、写真の欠落領域をインテリジェントに補い、写真の構図を修正します。

MiracleVision がもたらす AI 機能に基づいて、Meitu はユーザーが携帯電話でプロレベルの編集効果を簡単に達成し、よりパーソナライズされた写真作品を作成できるよう支援するだけでなく、AI 全体の推進と強化も継続していきます。携帯電話業界における画像処理能力。

Meitu Imaging Research Institute (MT Lab) の強力な技術力を利用して、MiracleVision は半年以内にバージョン 4.0 までバージョンアップされました。今後も Meitu は、電子商取引、広告、ゲーム、その他の業界におけるユーザーエクスペリエンスの向上に努め、さまざまなシナリオの実務者がワークフローの効率を向上できるよう支援していきます。

以上がMeitu AI部分再描画技術公開！好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、