ホームページ > 記事 > テクノロジー周辺機器 > ファイルが小さくなり、品質が高くなります。人気の Stable Diffusion は画像を圧縮できますか?
最近、安定拡散が新たな研究方向として注目されています。 Matthias Bühlmann という名前のブロガーは、このモデルの能力を実験的に調査しようとし、Stable Diffusion が非常に強力な非可逆画像圧縮コーデックであることを発見しました。彼はこの実験分析プロセスを説明するブログを書きました (以下はブログの原文です)。
まず、Matthias Bühlmann が、高圧縮率条件下での安定拡散法と JPG および WebP の圧縮結果を示します。すべての結果は 512x512 ピクセルの解像度でのものです:
サンフランシスコの風景、左から右へ: JPG (6.16kB)、WebP (6.80kB) 、安定した拡散:(4.96kB)。
駄菓子屋、左から右へ: JPG (5.68kB)、WebP (5.71 kB)、安定拡散 (4.98kB)。
#動物の写真、左から右: JPG (5.66 kB)、 WebP (6.74kB)、安定拡散 (4.97kB)。
#これらの例は、安定拡散を使用して画像を圧縮すると、JPG や WebP と比較して、より小さなファイル サイズで優れた画質を維持できることを明確に示しています。
探索実験Matthias Bühlmann は動作原理を分析しました。安定拡散では、3 つのシリーズ学習済み人工ニューラル ネットワークが使用されます。 変分自動エンコーダ (VAE)
VAE はトレーニング プロセス中に自ら学習します。モデルが徐々にトレーニングされると、モデルの異なるバージョンの潜在空間表現が異なって見える場合があります (Stable の潜在空間表現など)。 Diffusion v1.4 空間表現は次のとおりです (4 チャネルのカラー画像に再マッピング):
潜在特徴を再展開して解釈した場合(アルファ チャネルを使用して) カラー値に変換しても、画像の主要な特徴は依然として表示され、VAE は高解像度の特徴もピクセル値にエンコードします。
たとえば、VAE エンコード/デコード ラウンドトリップを通じて、次の結果が得られます:
この往復はロスレスではないことに注意してください。たとえば、画像内の青いテープ上の白い単語は、デコード後はわずかに読みにくくなります。 Stable Diffusion v1.4 モデルの VAE は、一般に小さなテキストや顔を表現するのがあまり得意ではありません。
安定拡散の主な目的は、テキストの説明に基づいて画像を生成することであり、そのためにはモデルが画像の潜在的な空間表現を操作する必要があることがわかっています。このモデルは、訓練された U-Net を使用して潜在空間画像を反復的にノイズ除去し、ノイズの中で「見える」(予測する)ものを出力します。これは、私たちが時々雲を形や面として見るのと同じです。反復ノイズ除去ステップでは、3 番目の ML モデル (テキスト エンコーダー) が U-Net をガイドして、さまざまな情報を確認しようとします。
Matthias Bühlmann は、VAE によって生成された潜在表現がどのように効果的に圧縮できるかを分析しています。彼は、VAE で潜在表現をサンプリングしたり、既存の非可逆画像圧縮方法を潜在表現に適用すると、再構成された画像の品質が大幅に低下する一方、VAE 復号化プロセスは潜在表現の品質に対して比較的堅牢であるように見えることを発見しました。
Matthias Bühlmann は、潜在表現を浮動小数点から 8 ビット符号なし整数に量子化し、非常に小さな再構成エラーのみを発見しました。以下の図に示すように、左: 32 ビット浮動小数点ポテンシャル表現、中央: グラウンド トゥルース、右: 8 ビット整数ポテンシャル表現。
彼はまた、パレットとディザリング アルゴリズムを使用してさらに量子化すると、予想外に良好な結果が得られることも発見しました。ただし、VAE を使用して直接デコードすると、パレット化された表現によっていくつかの目に見えるアーティファクトが発生します。
左: 32 ビットの潜在表現、中央: 8 ビットの量子化された潜在表現、右: フロイドスタインバーグ ディザーを使用したパレット化された 8 ビットの潜在表現#パレット化された表現フロイド・スタインバーグのジッターではノイズが発生し、デコード結果が歪みます。そこで Matthias Bühlmann は U-Net を使用して、ジッターによって引き起こされるノイズを除去しました。 4 回の反復の後、再構成された結果は、視覚的には量子化されていないバージョンに非常に近くなります。
#再構成された結果 (左: パレット化された表現)フロイド・スタインバーグ ジッターあり、中央: 4 回の反復後のノイズ除去、右: Ground Truth)。
#結果は非常に良好ですが、上の中央のシンボルの光沢のある影など、いくつかのアーティファクトが発生します。
主観的には、Stable Diffusion 圧縮画像の結果は JPG や WebP よりもはるかに優れていますが、PSNR、SSIM、その他の指標の観点から見ると、Stable Diffusion には明らかな利点はありません。
下の図に示すように、コーデックとしての安定拡散は、画像の粒度を保持する点で他の方法よりもはるかに優れていますが、圧縮アーティファクト、つまり画像内のオブジェクトの形状の影響を受けます。 、など。特性は変更される場合があります。
左: JPG 圧縮、中央: Ground Truth、右: 安定した拡散圧縮。
現在の Stable Diffusion v1.4 モデルでは、圧縮プロセス中にテキスト情報や小さなフォントの顔の特徴を十分に保存できないことは注目に値しますが、Stable Diffusion v1.5 モデルは顔の生成が改善されました。
左: Ground Truth、中央: VAE ラウンドトリップ後 (32 ビット潜在機能)。右: パレット化されたノイズ除去された 8 ビット潜在特徴からのデコードの結果。
ブログの公開後、Matthias Bühlmann の実験分析がみんなの議論を呼び起こしました。
Matthias Bühlmann 自身は、Stable Diffusion の画像圧縮効果は予想以上に優れており、U-Net はディザリングによって発生するノイズを効果的に除去できるようだと考えています。ただし、安定拡散モデルの将来のバージョンには、この画像圧縮機能が含まれなくなる可能性があります。
しかし、一部のネチズンは「VAE 自体が画像圧縮に使用されているのではないか」と疑問を呈しています。たとえば、Transformer ベースの画像圧縮方式 TIC は VAE を使用しています。したがって、マティアス・ビュールマンの実験はやり過ぎのように思えます。
#これについてどう思いますか?
以上がファイルが小さくなり、品質が高くなります。人気の Stable Diffusion は画像を圧縮できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。