検索
ホームページテクノロジー周辺機器AIMeitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

最近、突然の拡大効果で話題を呼んだ「AI拡張」機能は、オートフィルのおもしろくて面白い結果が度々話題となり、ネット上でブームを巻き起こしています。ユーザーも積極的にこの機能を試し、その180度の大きな変化にも人々を驚かせ、話題の人気は高まり続けました。

これは、笑いと熱意を呼び起こすと同時に、AI が現実世界の問題を解決し、ユーザー エクスペリエンスを向上させるのに本当に役立つかどうかに人々が常に注目していることを意味します。 AIGC テクノロジーの急速な発展に伴い、AI 適用シナリオの実装が加速しており、新たな生産性革命が到来することを示しています。

最近、Meitu の WHEE などの製品は、AI 画像拡大機能と AI 画像修正機能を開始し、簡単なプロンプト入力で、ユーザーは画像を修正したり、画面要素を削除したり、画面を自由に拡大したりすることができます。素晴らしいエフェクトにより、ツールを使用する敷居が大幅に下がり、ユーザーに効率的で高品質な画像作成体験をもたらします。

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) が結果を排除します

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) が結果を置き換えます効果 前

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) 置換効果 Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision (Qixiang Intelligence) AI 画像変更効果

強力なモデル機能により、思いどおりに画像を編集できます

Meitu AI 部分再描画モデルは、拡散モデル (Diffision Model) テクノロジーに基づいて完全なインペイント & アウトペイント モデル フレームワークを構築し、内部領域を再描画しますターゲットの削除や外部領域の拡張などのタスクは 1 つのソリューションに統合され、いくつかの特定の効果の問題に対して特別な最適化設計が行われます。

MiracleVision モデルは、Vincentian グラフ モデルです。最初の畳み込み層を変換し、unet 全体を微調整することで修復タスクに適応させることができますが、これには、unet の元の重みを変更する必要があります。トレーニング データの量が不十分な場合、モデルのパフォーマンスの低下につながります。

したがって、MiracleVision の既存の生成機能を最大限に活用するために、チームは部分再描画モデルで MiracleVision の unet モデルを直接微調整するのではなく、controlnet を使用してマスクの入力ブランチを追加します。制御されている。

同時に、トレーニング コストを節約し、推論を高速化するために、圧縮されたコントロールネット モジュールをトレーニングに使用して、計算量を可能な限り削減します。トレーニング プロセス中に、unet モデルのパラメーターが固定され、controlnet モジュールのみが更新され、最終的にはモデル全体が修復できるようになります。

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

Meitu AI はモデル アーキテクチャ図を部分的に再描画します

アウトペイント タスクはクロップ タスクの逆の操作です。トリミング タスクは、元の画像を画像の境界に沿ってトリミングし、必要な部分のみを保持し、画像コンテンツの減算操作を行うことです。一方、外側のタスクは、モデルの生成機能を使用して、画像の境界に沿って外側に拡張することです。何もないところから作成する 元々存在しないコンテンツを抽出することは、画像コンテンツの追加操作です。

本質的に、アウトペイント タスクは、マスク領域がイメージの周縁に配置されることを除いて、特別なインペイント タスクとみなすこともできます。

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

MiracleVision AI 拡張効果

アウトペイントタスクのマスク領域は画像からしか描画できないため ガイダンス情報は内部的に取得され、他の方向は画像の境界となるため、生成されるコンテンツはよりランダムで発散的になります。画像の周囲の空白領域を埋めて画像拡大の精度を確保するために、チームはシーン認識アルゴリズムを利用して画像のスタイルと内容を推測し、画像内容の相関関係を最大限に利用してコピーしました。拡張されたエッジでミラーリングすることで元の画像のピクセルを復元し、ランダム ノイズを重ねてモデルに適切な初期事前分布を提供することで、生成されたコンテンツの合理性を確保し、境界遷移をよりスムーズにします。

さまざまなトレーニング戦略により、オブジェクトの生成と削除を自由に制御します

一般的な拡散モデルは、修復タスクを実行するときに、削除するよりも置き換えることに優れています。特定のターゲットを削除する必要がある場合、モデルは、特にマスクが存在しない場合、マスク領域に元から存在しないいくつかの新しい前景ターゲットを簡単に描画できます。エリア この現象は、これらのターゲットがプロンプトに表示されない場合でも、エリアが比較的大きい場合に特に顕著です。その理由は主に次の 3 つの側面です:

1. トレーニング セットのプロンプトは通常、画像にあるもののみを説明し、画像にないものは説明しないため、トレーニングされたモデルはベースにすることができます。 on プロンプトにターゲットを生成するように指示するのは簡単ですが、ターゲットの生成を停止するのは困難です。分類子なしのガイダンス戦略を使用しても、不要なオブジェクトを否定的な単語に追加することでこのターゲットの生成を抑制できますが、考えられるすべてのターゲットを否定的な単語に書き込むことは不可能であるため、モデルは依然としていくつかの予期しないターゲットを生成する傾向があります。 ;

2. 訓練データの分布から、大規模な画像訓練セット内のほとんどの画像は前景と背景で構成されているため、純粋な背景画像が占める割合は比較的小さく、これは拡散がモデルはトレーニング中に潜在的なルールを学習しました。つまり、画像内にターゲットの前景が存在する可能性が高く (プロンプトで言及されていない場合でも)、これによりモデルは修復タスクを実行するときに、出力画像がトレーニング中の分布に近づくように、マスク領域に何かが生成される可能性が高くなります。

3. 塗りつぶされるマスク領域の形状には、特定の意味情報も含まれる場合があります。たとえば、他のガイダンスがなければ、モデルはマスク領域に新しい猫を猫の形で塗りつぶす傾向が強くなり、除去タスクが失敗します。

MiracleVision でターゲット生成とターゲット除去の両方を実行できるようにするために、チームはマルチタスク トレーニング戦略を採用しました:

1. トレーニング段階では、マスク領域がターゲットに該当するとき、純粋な背景領域が少ない場合は、特定のプロンプト キーワードをトリガー ガイド ワードとして追加し、モデルの推論段階で、このキーワードを前方ガイド ワードとしてプロンプト埋め込みに追加して、モデルがより多くの背景領域を生成するように促します。

2. 純粋な背景画像がトレーニング セット全体で占める割合は比較的小さいため、トレーニングへの寄与を高めるために、各トレーニング バッチで、一定の割合の背景画像が手動でサンプリングされ、背景画像に追加されます。トレーニングにより、背景画像の割合が全体的に安定したままになります。

3. マスク形状に対するモデルのセマンティック依存性を減らすために、トレーニング段階で異なる形状のさまざまなマスクがランダムに生成され、マスク形状の多様性が高まります。

高精度テクスチャ生成、より自然な融合

トレーニング セット内の高精細テクスチャ データは、トレーニング データ全体のほんの一部にすぎないため、インペイント タスクを実行する場合、通常、非常に豊かなテクスチャを含む結果は生成されません。その結果、元のテクスチャが豊かなシーンに不自然な融合や境界感が生じます。

この問題を解決するために、チームは独自に開発したテクスチャ詳細モデルをガイド モデルとして使用し、MiracleVision による生成品質の向上とオーバーフィッティングの抑制を支援し、生成された領域が生成された領域の間に収まるようにしました。元の画像の領域と他の領域をより適切に組み合わせることができます。

Meitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題

元の画像 vs テクスチャ詳細を追加していない画像 vsMiracleVision 拡大画像効果

#より速く、より良い効果、より効率的なインタラクション!

拡散モデル ソリューションでは、通常、推論中に複数ステップの逆拡散プロセスが必要となり、その結果、単一画像の処理に時間がかかりすぎます。生成品質を維持しながらユーザー エクスペリエンスを最適化するために、Meitu Imaging Research Institute (MT Lab) チームは AI 部分再描画テクノロジーの特別なチューニング ソリューションを作成し、最終的にパフォーマンスと効果の最適なバランスを実現しました。

まず、MiracleVision の前処理、後処理および推論プロセスにおける多数の行列計算が、可能な限り並列コンピューティングのために GPU に移植されるため、効果的に計算が高速化され、計算量が削減されます。 CPUの負荷。同時に、画像を組み立てるプロセス中に、可能な限りレイヤーを融合し、FlashAttendant を使用してビデオ メモリの使用量を削減し、推論パフォーマンスを向上させ、さまざまな NVIDIA グラフィックスの GPU コンピューティング パワーの使用を最大化するためにカーネル実装を調整します。カード。

さらに、MiracleVision は、独自に開発したモデル パラメーター定量化手法を利用して、明らかな精度の損失なしに 8 ビットに量子化されます。 GPU グラフィックス カードによって 8 ビット量子化のサポートが異なるため、混合精度戦略を革新的に採用して、さまざまなサーバー リソース環境下で最適な演算子を適応的に選択し、全体的な高速化の最適なソリューションを実現します。

ユーザー入力画像の解像度が高い場合、サーバー リソースと時間コストの制限により、元の解像度で直接推論を実行することは困難です。この点に関して、チームはまず画像の解像度を適切なサイズに圧縮し、次に MiracleVision に基づいて推論を実行し、次に超解像度アルゴリズムを使用して画像を元の解像度に復元し、次に元の画像との画像融合を実行しました。これにより、鮮明な画像が生成され、推論プロセス中のメモリ使用量と実行時間が節約されます。

Meitu は Samsung と緊密に協力し、AI を使用した新しいモバイル画像編集エクスペリエンスを作成します

サムスン電子は1月25日、中国でGalaxy S24シリーズの新製品発表会を開催した。 MeituはSamsungとの協力を深め、Samsungの新型Galaxy S24シリーズの携帯電話アルバム向けに新たなAI画像編集エクスペリエンスを構築するとともに、Meitu画像研究所(MT Lab)が独自に開発したジェネレーティブ編集機能「AI画像拡張機能」と「AI画像修正機能」を提供します。モバイル画像の編集と作成のための新しいスペースを開くために正式にリリースされました。

AI画像編集機能により、編集したい画像を長押しするだけで、画像の移動や削除、サイズ変更などが簡単に行えます。さらに、写真の水平線が垂直でない場合、AI画像拡大機能は、ユーザーが角度を調整した後、写真の欠落領域をインテリジェントに補い、写真の構図を修正します。

MiracleVision がもたらす AI 機能に基づいて、Meitu はユーザーが携帯電話でプロレベルの編集効果を簡単に達成し、よりパーソナライズされた写真作品を作成できるよう支援するだけでなく、AI 全体の推進と強化も継続していきます。携帯電話業界における画像処理能力。

Meitu Imaging Research Institute (MT Lab) の強力な技術力を利用して、MiracleVision は半年以内にバージョン 4.0 までバージョンアップされました。今後も Meitu は、電子商取引、広告、ゲーム、その他の業界におけるユーザー エクスペリエンスの向上に努め、さまざまなシナリオの実務者がワークフローの効率を向上できるよう支援していきます。

以上がMeitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール