検索
ホームページテクノロジー周辺機器AIStable Diffusion は JPEG などのアルゴリズムを上回り、鮮明さを維持しながら画像圧縮を改善できるでしょうか?

テキストベース画像生成モデルは非常に人気があり、拡散モデルだけでなく、オープンソースの安定拡散モデルも人気です。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

最近、スイスのソフトウェア エンジニア、Matthias Bühlmann は、安定拡散が画像の生成だけに使用できるわけではないことを偶然発見しました。 #ビットマップ画像を圧縮します。JPEG や WebP よりもさらに高い圧縮率を実現します。

たとえば、ラマの写真、元の画像は 768KB ですが、JPEG を使用して 5.66KB に圧縮され、安定拡散によりさらに 4.98KB に圧縮すると、より多くの高解像度の詳細を保持でき、より少ない圧縮アーティファクトが得られます。これは、肉眼で見ても他の圧縮アルゴリズムよりも明らかに優れています。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

ただし、この圧縮方法には欠点もあります。つまり、

は顔画像やテキスト画像の圧縮には適していません。場合によっては、次に、いくつかのオリジナル画像が コンテンツなしで生成されることもあります

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法オートエンコーダーを再トレーニングする

でも安定拡散と同様の圧縮効果を達成できますが、安定拡散を使用するのが主な圧縮効果の 1 つです。利点は、誰か

がすでに何百万もの資金 を投資して圧縮モデルのトレーニングを支援していることです。それなら、なぜ お金をかけて 圧縮モデルを再度トレーニングするのでしょうか? 安定拡散による画像の圧縮方法

拡散モデルは生成モデルの優位性に挑戦しており、対応するオープンソースの安定拡散モデルも芸術的革命を引き起こしています機械学習コミュニティで。

安定した拡散は、3 つの学習済みニューラル ネットワーク、つまり Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法変分オートエンコーダー (VAE)

を直列に接続することによって得られます。

U-Net モデル テキスト エンコーダー

変分オートエンコーダは、画像空間内の画像をエンコードおよびデコードして、Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法 潜在空間 ## 内の画像の表現ベクトルを取得します。

# 低解像度 (64x64)

高精度 (4x32 ビット) ソース画像 (512x512 の 3x8 または 4x8 ビット) のベクトルで表されます。 画像を潜在空間にエンコードする VAE のトレーニング プロセスは、主に自己教師あり学習に依存しています。つまり、入力と出力は両方ともソース画像であるため、モデルがさらにトレーニングされると、異なる値になります。モデルのバージョンによっては、潜在空間表現が異なって見える場合があります。

Stable Diffusion v1.4 を使用して潜在空間表現を 4 チャネル カラー イメージに再マップして解釈すると、下の中央のイメージのようになります。ソース イメージ キーの

機能はまだ表示されます

VAE 往復エンコードは一度だけロスレスではないことに注意してください。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

たとえば、デコード後、青いテープ上の

ANNA 名 はソース画像ほど鮮明ではなく、可読性が大幅に低下します。

Stable Diffusion v1.4 の変分オートエンコーダは、 小さなテキストや顔画像の表現があまり得意ではありません、私はそう思いませんv1.5で改善されるかどうかはわかりません。

安定拡散の主な圧縮アルゴリズムは、この画像の潜在空間表現を使用して、短いテキストの説明から新しい画像を生成することです。

潜在空間によって表されるランダム ノイズから開始し、完全にトレーニングされた U-Net を使用して潜在空間画像からノイズを繰り返し除去し、より単純な表現でモデルを出力します。それはこのノイズの中にあると信じています 「見る」という予測は、私たちが雲を見るときに、不規則なグラフィックスから頭の中に形や顔を復元するのと少し似ています。

安定拡散を使用して画像を生成する場合、この反復的なノイズ除去ステップは 3 番目のコンポーネントであるテキスト エンコーダーによってガイドされ、テキスト エンコーダーによって U-Net にそれに関する情報が提供されます。騒音の中で見ること。

ただし、圧縮タスクの場合、 はテキスト エンコーダ を必要としないため、実験プロセスでは、伝えるために使用される 空の文字列 エンコーディングのみが作成されました。 U-Net は、画像再構成プロセス中に ガイドなしノイズ除去 を実行します。

Stable Diffusion を画像圧縮コーデックとして使用するには、アルゴリズムが VAE によって生成された潜在表現を効果的に圧縮する必要があります。

潜在表現をダウンサンプリングしたり、既存の非可逆画像圧縮方法を直接使用したりすると、再構成された画像の品質が大幅に低下することが実験でわかります。

しかし、著者は、VAE デコードが潜在表現の量子化に非常に効果的であることを発見しました。

浮動小数点から 8 ビット符号なし整数へのポテンシャルのスケーリング、クランプ、および再マッピングでは、目に見える小さな再構成エラーのみが生成されます。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

#8 ビット潜在表現を量子化することにより、画像によって表現されるデータ サイズは 64*64*4*8bit=16kB になります。これは非圧縮よりもはるかに小さいです。ソース画像は 512*512*3*8bit=768kB

潜在表現のビット数が 8 ビット未満の場合、生成されません。より良い結果が得られます。

画像に対してさらに パレタイズ ディザリング を実行すると、量子化効果が再び向上します。

256*4*8 ビット ベクトルとフロイド スタインバーグ ディザリングの潜在表現を使用してパレット表現を作成し、データ サイズをさらに 64*64*8 256*4 *8 ビットに圧縮しました=5kB

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

潜在空間パレットのディザリングによりノイズが発生し、デコード結果が歪みます。ただし、安定拡散は潜在ノイズの除去に基づいているため、U-Net を使用してジッターによって引き起こされるノイズを除去できます。

4 回の反復後の再構成結果は、視覚的には量子化されていないバージョンに非常に近くなります。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

データ量が大幅に削減されるため (ソース画像は圧縮画像の 155 倍)、効果は非常に優れていますが、また、一部のアーティファクト (元の画像には存在しないハートのパターンなど) も導入されます。

興味深いことに、この圧縮スキームでは、画質よりも画像コンテンツに大きな影響を与えるアーティファクトが発生し、この方法で圧縮された画像には、この種の圧縮アーティファクトが含まれる可能性があります。

著者は、zlib を使用してパレットとインデックスの可逆圧縮を実行しました。テスト サンプルでは、​​ほとんどの圧縮結果は 5kb 未満でした。 ただし、この圧縮方法にはまだ最適化の余地があります。

この圧縮コーデックを評価するために、作成者は、インターネット 上にある標準的なテスト画像を使用しませんでした。なぜなら、インターネット上の画像は、安定拡散濃度によってトレーニングされた画像が発生しており、そのような画像を圧縮すると、コントラストが不当に有利になる可能性があります。

比較をできるだけ公平にするために、作成者は Python 画像ライブラリの最高品質のエンコーダ設定を使用し、さらに mozjpeg を使用して圧縮 JPG データのロスレス データ圧縮を追加しました。図書館。

Stable Diffusion の結果は、主観的には JPG や WebP 圧縮画像よりもはるかに優れているように見えますが、PSNR や SSIM などの標準測定の観点からは大幅に優れているわけではありませんが、悪くなっているわけではないことに注意してください。

導入されたアーティファクトの種類は、画質に影響を与えるよりも画像コンテンツに影響を与えるため、それほど明白ではありません。

この圧縮方法も少し危険です。再構成された特徴の品質は高くなりますが、コンテンツはたとえ非常に鮮明に見えたとしても、圧縮アーティファクトの影響を受ける可能性があります。

たとえば、テスト画像では、コーデックとしての Stable Diffusion が画像の品質を維持するのにはるかに優れていますが、カメラの粒子さえも保存されます (従来の圧縮アルゴリズムのほとんどは達成に苦労しています)、しかしそのコンテンツは依然として圧縮アーティファクトの影響を受けており、建物の形状などの細かい機能が変化する可能性があります。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

JPG 圧縮画像では、安定拡散圧縮画像よりも多くの真の値を特定することは確かに不可能ですが、安定拡散圧縮結果 JPG や WebP の圧縮アーティファクトは見つけやすいため、高いビジュアル品質は欺瞞的である可能性があります。 実験を再現したい場合は、作者が

Colab

でコードをオープンソース化しています。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

コードリンク: https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing

最後に、著者は、この記事で設計された実験はまだ非常に単純ですが、その効果は依然として驚くべきものであると述べました。未来### 。

以上がStable Diffusion は JPEG などのアルゴリズムを上回り、鮮明さを維持しながら画像圧縮を改善できるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール