10 ミリ秒で 1 枚の画像、1 分で 6,000 枚の画像を生成します。コンセプトは何ですか?
下の写真では、AI のスーパーパワーを深く感じることができます。
画像
二次元の女性の画像によって生成されたプロンプトに新しい要素を追加し続けると、それぞれの要素がこのスタイルの絵の切り替わりも一瞬です。
写真
このような驚くべきリアルタイム画像生成速度は、カリフォルニア大学バークレー校の研究者によって提案された StreamDiffusion の結果です。つくば市などで成果をあげています。
この新しいソリューションは、100fps を超えるリアルタイムのインタラクティブな画像生成を可能にする拡散モデル プロセスです。
#写真
論文アドレス: https://arxiv.org/abs/2312.12491
オープンソース化後、StreamDiffusion は GitHub ランキングを直接独占し、3.7,000 個のスターを獲得しました。
画像
StreamDiffusion は、シーケンスのノイズ除去ではなくバッチ処理戦略を革新的に使用しており、従来の方法よりも約 1.5 倍高速です。さらに、著者が提案した新しい残差分類子なしガイダンス (RCFG) アルゴリズムは、従来の分類子なしガイダンスよりも 2.05 倍高速になります。
最も注目すべき点は、新しい方法により、RTX 4090 上で 91.07fps の画像間の生成速度を達成できることです。
画像
#将来的には、StreamDiffusion はメタバース、ビデオ ゲーム グラフィックスのレンダリング、ライブビデオストリーミングこれらのアプリケーションの高スループット要件を満たすことができます。
特に、リアルタイム画像生成は、ゲーム開発やビデオ レンダリングに携わる人々に強力な編集機能と創造的な機能を提供します。
写真
現在、さまざまな分野で普及モデルが使用されています。アプリケーションには、人間とコンピューターの対話の効率を確保するために、高スループットかつ低遅延の拡散パイプラインが必要です。
典型的な例は、拡散モデルを使用して VTuber 可能な仮想キャラクターを作成することです。ユーザー入力に流動的に応答します。
写真
高スループットとリアルタイムのインタラクション機能を向上させるために、現在の研究の方向性は主にコスト削減に焦点を当てています。反復のノイズ除去 たとえば、反復回数が 50 反復から数回、または 1 回にまで減ります。
一般的な戦略は、複数ステップの拡散モデルをいくつかのステップに洗練し、ODE を使用して拡散プロセスを再構築することです。効率を向上させるために、拡散モデルも定量化されています。
最新の論文では、研究者たちは直交方向から始めて、インタラクティブな画像生成の高スループット向けに設計されたリアルタイム拡散パイプラインである StreamDiffusion を紹介しました。
既存のモデル設計作業を StreamDiffusion と統合しながら、N ステップのノイズ除去拡散モデルを使用して高スループットを維持し、より柔軟なオプションをユーザーに提供できます
写真
リアルタイム画像生成|1列目、2列目:AIによるリアルタイム描画例、3列目:リアルタイムレンダリング3Dアバターの2Dイラストから。列 4 および 5: ライブ カメラ フィルター。 リアルタイム画像生成 | 1 列目と 2 列目は AI 支援によるリアルタイム描画の例を示し、3 列目は 3D アバターをリアルタイムでレンダリングして 2D イラストを生成するプロセスを示します。 4 番目と 5 番目の列は、リアルタイム カメラ フィルターの効果を示しています。
これはどのように実装されていますか?
StreamDiffusion アーキテクチャ
StreamDiffusion は、スループットを向上させるために設計された新しい拡散パイプラインです。
これは、いくつかの重要な部分で構成されています:
ストリーミング バッチ処理戦略、残差分類子なしガイダンス (RCFG)、入力および出力キュー、確率的類似性フィルター、事前計算プログラム、マイクロ オートエンコーダー用のランダム モデル アクセラレーション ツール。
バッチノイズ除去
拡散モデルでは、ノイズ除去ステップが順番に実行されるため、U-Net の処理時間が増加します。歩数に比例します。
ただし、高忠実度の画像を生成するには、ステップ数を増やす必要があります。
インタラクティブ拡散における待ち時間の長い生成の問題を解決するために、研究者はストリーム バッチと呼ばれる方法を提案しました。
下の図に示すように、最新の方法では、単一の画像が完全にノイズ除去されるのを待ってから次の入力画像を処理するのではなく、各ノイズ除去ステップの後に次の入力を受け入れます。画像。
これによりノイズ除去バッチが形成され、各画像のノイズ除去ステップが交互に行われます。
これらのインターリーブされたノイズ除去ステップをバッチに連結することにより、研究者は U-Net を使用して連続入力のバッチを効率的に処理できます。
タイム ステップ t でエンコードされた入力画像は、タイム ステップ t n で生成およびデコードされます。ここで、n はノイズ除去ステップの数です。
図
ガイド付き残差分類子無料 (RCFG)
一般的な分類子 -フリー ガイダンス (CFG) は、無条件または負の条件項と元の条件項の間でベクトル計算を実行する方法です。元の状態の効果を高めるアルゴリズム。
写真
これにより、プロンプトの効果が高まるなどのメリットが得られます。
ただし、負の条件付き残留ノイズを計算するには、各入力潜在変数を負の条件付き埋め込みとペアにして、各推論時間に U-Net に渡す必要があります。
この問題を解決するために、著者は革新的な残差分類子を使用しないブートストラップ (RCFG) を導入しました。
この方法では、仮想残差ノイズが使用されます。負の条件を近似するため、プロセスの初期段階で負の条件ノイズを計算するだけで済みます。これにより、負の条件を埋め込む際の追加の U-Net 推論計算コストが大幅に削減されます
#入力キューと出力キュー
#入力イメージをパイプラインで管理可能なテンソル データ形式に変換し、デコードされたテンソルを出力に変換します。画像、両方 無視できない追加の処理時間が必要です。
これらの画像処理時間がニューラル ネットワーク推論プロセスに追加されるのを避けるために、画像の前処理と後処理を異なるスレッドに分離し、それによって並列処理を可能にします。
また、入力テンソルキューを利用することで、機器の故障や通信エラーによる入力画像の一時的な中断にも対応でき、スムーズなストリーミングが可能となります。 ###############写真######
確率的類似性フィルター
次の図は、VAE と U-Net を含む、コアの拡散推論パイプラインを示しています。
ノイズ除去バッチ処理と事前計算されたヒント埋め込みキャッシュ、サンプリングされたノイズ キャッシュ、およびスケジューラ値キャッシュを導入することにより、推論パイプラインの速度が向上し、リアルタイムの画像生成が可能になります。
確率的類似性フィルタリング (SSF) は、GPU の消費電力を節約するように設計されており、拡散モデルのパイプラインを動的に閉じることができるため、高速かつ効率的なリアルタイム推論を実現できます。
図
事前計算
U-Net アーキテクチャには両方の入力電位が必要です変数には条件付きの埋め込みも必要です。
通常、条件付き埋め込みは「ヒント埋め込み」から派生し、異なるフレーム間で変更されません。
これを最適化するために、研究者はヒントの埋め込みを事前計算し、キャッシュに保存します。インタラクティブ モードまたはストリーミング モードでは、この事前計算されたヒント埋め込みキャッシュが呼び出されます。
U-Net では、各フレームのキーと値の計算は、事前に計算されたヒントの埋め込みに基づいて実装されます
したがって, 研究者らは、これらのキーと値のペアを再利用できるように保存するように U-Net を修正しました。入力プロンプトが更新されるたびに、研究者は U-Net 内でこれらのキーと値のペアを再計算して更新します。
モデル アクセラレーションと小型オートエンコーダー
速度を最適化するために、静的なバッチ サイズと固定入力サイズ (高さ) を使用するようにシステムを構成しました。と幅)。
このアプローチにより、計算グラフとメモリ割り当てが特定の入力サイズに合わせて最適化され、処理が高速化されます。
ただし、これは、異なる形状 (つまり、異なる高さと幅) の画像を処理する必要がある場合は、異なるバッチ サイズ (ノイズ除去ステップのバッチ サイズを含む) を使用することを意味します。
#実験的評価ノイズ除去バッチの定量的評価
## 図 8 は、バッチのノイズ除去と元の逐次 U 効率のネットの比較を示しています。ループ研究者らは、バッチノイズ除去戦略を実装したところ、処理時間が大幅に改善されたことを発見しました。これにより、連続したノイズ除去ステップを使用する従来の U-Net ループと比較して、時間が半分に短縮されます。
ニューラル モジュール アクセラレーション ツール TensorRT を適用した場合でも、研究者らが提案したストリーミング バッチ処理は、さまざまなノイズ除去ステップで元の逐次拡散パイプラインの効率を大幅に向上させることができます。
写真
平均推論時間の比較を表 1 に示します。最新のパイプラインでは、速度が大幅に向上していることがわかります。
TensorRT を使用する場合、StreamDiffusion は 10 のノイズ除去ステップを実行すると 13 倍の高速化を達成できます。単一ステップのノイズ除去ステップのみを使用する場合、速度向上は 59.6 倍に達します。
# TensorRT を使用しない場合でも、単一ステップのノイズ除去を使用すると、StreamDiffusion は AutoPipeline より 29.7 倍高速になります。 10 ステップのノイズ除去を使用する場合。
写真
表 2 は、RCFG と従来の CFG を使用した流れ拡散パイプラインの推論時間を比較しています。
シングルステップノイズ除去の場合、Onetime-Negative RCFG と従来の CFG の推論時間はほぼ同じです。
つまり、シングルステップノイズ除去中のワンタイム RCFG と従来の CFG の推論時間はほぼ同じです。ただし、ノイズ除去ステップの数が増加するにつれて、従来の CFG から RCFG への推論速度の向上がより明らかになります。
ノイズ除去の 5 番目のステップでは、セルフネガティブ RCFG は従来の CFG より 2.05 倍高速で、ワンタイムネガティブ RCFG は従来の CFG より 1.79 倍高速です。
写真
写真
この後、研究者たちはエネルギー消費量を包括的に調査しました。評価されました。このプロセスの結果を図 6 と 7 に示します。
これらの図は、定期的な静的比較分析を含めるために入力ビデオに SSF を適用する (しきい値 eta を 0.98 に設定する) ことを示しています。特徴的なシーンにおける GPU 使用パターンの分析から、入力画像が主に静止画像で類似性が高い場合、SSF を使用すると GPU 使用量が大幅に削減できることがわかります。
写真
アブレーション研究
異なるモジュールが異なるノイズ除去ステップを実行します。平均推論時間を表 3 に示します。見てわかるように、さまざまなモジュールの削減は、イメージからイメージへの生成プロセスで検証されます。
写真
定性的な結果
は、残りのデータを使用して図 10 に示します。分類子ガイダンスなしで生成された画像を条件付きで迅速に調整するための位置合わせプロセス (RCFG)
形式の CFG を使用せずに生成された画像には、特に色の変更などの側面で弱い位置合わせのヒントが表示されます。または、存在しない要素の追加が効率的に実装されていませんでした。
対照的に、CFG または RCFG を使用すると、髪の色の変更、体のパターンの追加、メガネなどのオブジェクトの追加など、元の画像を変更する機能が強化されます。特に、RCFG を使用すると、標準の CFG と比較してキューのインパクトを高めることができます。
画像
最後に、標準的なテキストから画像への生成結果の品質を図 11 に示します。
sd-turbo モデルを使用すると、図 11 に示すような高品質の画像を 1 ステップで生成できます。
GPU:RTX 4090、CPU:Core i9-13900K、OS:Ubuntu 22.04.3 LTSの環境で、研究者が提案したフロー拡散パイプラインとSD-turboモデルを使用した場合画像を生成する場合、100fpsを超える高品質の画像を生成することが可能です。
画像
ネチズンが始めて、二次元女性の大波がやって来た
写真
プロジェクトアドレス: https://github.com/cumulo-autumn/StreamDiffusion
多くのネットユーザーが自分の二次元嫁を生成し始めています。
写真
リアルタイム アニメーションもあります。
写真
10 倍速の手描き生成。
#写真
写真
##写真## 子供靴に興味のある方はぜひ作ってみてはいかがでしょうか。
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133
以上が無料のパーソナライズされた学術論文推薦システム - ドイツの大学のトップビジュアルチームの「arXiv カスタマイズされたプラットフォーム」を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

在2020年3月31日这天初音未来与曾经那位花费了数百万迎娶她的日本宅男正式“离婚”了,距今差不多也有快4年的时间了。其实当初两人结婚的时候,许多人并不看好他们这一对,毕竟一个生活在三次元的人要和二次元的纸片人结婚,想想都觉得非常离谱。不过面对网友们的口诛笔伐,这位日本宅男近藤显彦并没有退缩,最终他还是与初音未来举办了婚礼,从结婚后近藤显彦时不时晒出的照片来看,他与初音未来的生活过得还是挺不错的,可惜两人婚姻并没有维持太长的时间,随着初代初音模型的Gatebox版权到期,近藤显彦的老婆初音未来也

操作系统实现按名存取的关键在于解决文件名称与具体的物理地址的转换;实现逻辑文件到物理文件间的转换,即按名存取外存上的文件,按名存取实现文件的共享和保密,不同用户能在系统的控制下共享其他用户的文件。

荣耀手机使用的是“Magic UI”、“EMUI”和“HarmonyOS”操作系统;荣耀的新机型采用的都是“Magic UI”系统,旧机型普遍使用的是基于安卓的EMUI系统,而部分机型支持升级为华为研发的HarmonyOS操作系统。

“funtouch os”是vivo基于安卓系统开发的智能手机操作系统;“funtouch os”是针对vivo公司中高端手机推出的一款人性化手机操作系统,该系统与2013年10月发布,以用户体验为核心,以简约、乐趣、智慧、理念为设计导向。

Ghost的本质是对磁盘或者硬盘进行快速备份与还原;利用Ghost安装Windows系统最大的优点就是速度快而且一键安装,并且Ghost系统大多集成了大多数电脑所需要的驱动程序以及一些常用的应用软件。需要注意:1、通过网络下载到的Ghost系统,其预置的驱动程序与自己的电脑可能不兼容,会导致安装之后出现蓝屏而无法正常使用;2、Ghost系统捆绑安装的应用软件太多。

从2024年开始,日本可能会取消对未实现收益征收的加密货币投资税,给投资者带来重大改变。在最近的一次内阁会议上,日本政府敲定了2024财年的加密税改革大纲。该改革方案包含了一项对持有加密资产的企业产生重大影响的修正案。修正案取消了之前适用于持有第三方发行的加密资产(虚拟货币)的公司的期末按市值计价的估值税。这一决定将使企业能够在报告期末时,以实际购买成本而非市场价值来计算其持有的加密资产的价值。这项修正案的目的是减轻企业在加密资产持有期间可能面临的税务压力,并为其提供更加公平和可持续的税收政策。

aps系统的核心理念是排程;aps系统指的就是高级计划与排程,排程指的就是排序,决策先做什么和后做什么的问题,该系统也就是解决生产排程和生产调度问题,通过为流程和离散的混合模型同时解决顺序和调度的优化问题,从而对项目管理与项目制造解决关键链和成本时间最小化。

7月30日消息,苹果今日发布公告,宣布开始面向日本用户提供卫星紧急求救服务(前两年免费),适用于所有iPhone14和iPhone15机型。当iPhone用户遇险时,即使所处位置不在蜂窝网络或Wi-Fi覆盖范围内,也可以通过卫星通讯功能与紧急服务部门建立联系。苹果允许用户通过卫星快速拨打110(报警电话)、118(海上保安厅)或119(火灾/急救电话)、发送卫星消息以及通过卫星共享当前位置。如图所示,iPhone用户如需紧急帮助,可通过以下步骤:长按侧边按钮和任一音量按钮。直到出现紧急求救滑块。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 中国語版
中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

メモ帳++7.3.1
使いやすく無料のコードエディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック



