ホームページ >テクノロジー周辺機器 >AI >Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています
画像再スケーリング (LR) タスクは、画像のダウンサンプリングとアップサンプリングの操作を共同で最適化します。画像の解像度を下げたり復元したりすることで、ストレージ スペースや送信帯域幅を節約するために使用できます。アトラス サービスのマルチレベル配信などの実際のアプリケーションでは、ダウンサンプリングによって取得された低解像度画像が非可逆圧縮されることが多く、非可逆圧縮により既存のアルゴリズムのパフォーマンスが大幅に低下することがよくあります。
最近、ByteDance-Volcano Engine Multimedia Laboratory は、非可逆圧縮下での画像リサンプリング パフォーマンスの最適化を初めて試み、非対称可逆リサンプリング フレームワークを設計しました は、このフレームワークに基づく 2 つの観察に基づいて、圧縮防止画像リサンプリング モデル SAIN をさらに提案しています。この研究では、可逆ネットワーク モジュールのセットをリサンプリングと圧縮シミュレーションの 2 つの部分に分離し、混合ガウス分布を使用して解像度の低下と圧縮歪みによって引き起こされる結合情報損失をモデル化し、それを微分可能な JPEG 演算子と組み合わせてエンドツーこれにより、一般的な圧縮アルゴリズムに対する堅牢性が大幅に向上します。
現在、画像リサンプリングの研究では、SOTA 法は可逆ネットワークに基づいて全単射関数 (全単射関数) を構築し、その正の演算により画像の高解像度 (HR) を変換します。は、低解像度 (LR) 画像と標準正規分布に従う一連の隠れ変数に変換され、逆演算により隠れ変数がランダムにサンプリングされ、アップサンプリング復元のために LR 画像が結合されます。
可逆ネットワークの特性により、ダウンサンプリング オペレーターとアップサンプリング オペレーターは高度な対称性を維持するため、圧縮された LR 画像が最初に学習されたアップサンプリング オペレーターを通過することが困難になります。復元します。非可逆圧縮に対する堅牢性を強化するために、この研究では、非対称可逆フレームワーク ## に基づく耐圧縮画像リサンプリング モデル SAIN (Self-A対称 I を提案します) #nvertible Nネットワーク)。
SAIN モデルの中核となる革新は次のとおりです:
SAIN モデルは、JPEG および WebP 圧縮下でのパフォーマンスが検証されており、複数の公開データ セットでのパフォーマンスは SOTA モデルよりも大幅に優れています。 AAAI 2023 口頭用。
耐圧縮パフォーマンスを向上させるために、この研究ではまず非対称可逆画像リサンプリング フレームワークを設計し、ベースライン スキーム Dual-IRN モデルを提案し、詳細に分析しました。このスキームの欠点を考慮して、さらなる最適化のために SAIN モデルが提案されました。上の図に示すように、Dual-IRN モデルには 2 つのブランチが含まれています。D-IRN と U-IRN は、それぞれ HR 画像と圧縮前/圧縮後の LR 画像間の全単射を学習する 2 セットの可逆ネットワークです。 。
トレーニング フェーズでは、Dual-IRN モデルは微分可能な JPEG 演算子を介して 2 つのブランチ間の勾配を渡します。テスト段階では、モデルは D-IRN を使用してダウンサンプリングして高品質の LR 画像を取得し、実際の環境で実際に圧縮した後、モデルは圧縮を意識した U-IRN を使用して圧縮の回復とアップサンプリングを完了します。
このような非対称フレームワークにより、アップサンプリングおよびダウンサンプリングの演算子は厳密な可逆関係を回避でき、圧縮アルゴリズムがアップサンプリングおよびダウンサンプリングのプロセスの対称性を破壊することによって引き起こされる問題を根本的に解決します。 ## は、SOTA の対称ソリューションと比較して、耐圧縮性能が大幅に向上していることです。 その後、研究者らは Dual-IRN モデルでさらなる分析を実施し、次の 2 つの現象を観察しました。
まず、測定D-IRN と U-IRN の 2 つのブランチの中間層特徴の CKA 類似性。上の (b) に示すように、D-IRN の最後の層の出力特徴 (つまり、ネットワークによって生成された高品質 LR 画像) は、U-IRN の浅い層の出力特徴と非常に類似しています。 U-IRN の浅い動作はサンプリング損失のシミュレーションに近く、深い動作は圧縮損失のシミュレーションに近いです。
#SAIN モデルの詳細
##図 2 SAIN モデルの図。SAIN モデルのアーキテクチャは上の図に示されており、次の 4 つの主な改善が加えられています。
1. 全体的な枠組み。中間層の機能の類似性に基づいて、可逆ネットワーク モジュールのセットはリサンプリングと圧縮シミュレーションの 2 つの部分に分離され、完全な 2 つの可逆ネットワーク セットの使用を避けるために自己非対称アーキテクチャを形成します。テスト段階では、順変換
# を使用して高品質の LR 画像を取得し、最初に逆変換 ## を使用します。
# 圧縮回復を実行してから、アップサンプリングに逆変換
を使用します。
#2. ネットワーク構造。 E-InvBlockは、高周波情報を利用して圧縮損失を回復できることを前提として提案されており、モジュールに加法変換を追加することで、圧縮前後の2組のLR画像を共有しながら効率的にモデル化することができる多数の操作。
3. 情報損失モデリング。潜在変数の真の分布に基づいて、学習可能な混合ガウス分布を使用して、ダウンサンプリングと非可逆圧縮によって引き起こされる結合情報損失をモデル化し、再パラメータ化手法を通じて分布パラメータをエンドツーエンドで最適化することが提案されています。
4. 目的関数
。複数の損失関数は、ネットワークの可逆性を制限し、再構成の精度を向上させるように設計されており、同時に実際の圧縮演算を損失関数に導入して、実際の圧縮スキームに対する堅牢性を高めています。実験と効果の評価
評価データ セットは、DIV2K 検証セットと 4 つの標準テスト セット Set5、Set14、BSD100、および Urban100 です。定量的な評価指標は次のとおりです:
表 1 と図 3 の比較実験では、すべてのデータセットに対する SAIN の PSNR および SSIM スコアは、SOTA の画像リサンプリング モデルよりも大幅に優れています。比較的低い QF では、既存のメソッドでは通常、重大なパフォーマンスの低下が発生しますが、SAIN モデルは引き続き最適なパフォーマンスを維持します。
#表 1 DIV2K データセットでのさまざまな JPEG 圧縮品質 (QF) を比較する比較実験 再構成品質(PSNR/SSIM)。
図 3 4 つの標準テスト セットでの異なる JPEG QF の再構成品質を比較した比較実験 ( PSNR)。 #図 4 の視覚化結果では、SAIN によって復元された HR 画像が
より鮮明で正確であることがはっきりとわかります。
# 図 4 JPEG 圧縮下でのさまざまな方法の視覚化結果の比較 (倍率 4 倍)。表 2 のアブレーション実験では、研究者らは実際の圧迫と組み合わせたトレーニングの他のいくつかの候補も比較しました。これらの候補は、完全対称既存モデル (IRN) よりも圧縮に対して耐性がありますが、パラメーターの数と精度の点で SAIN モデルよりも劣っています。
#表 2 全体的なフレームワークとトレーニング戦略のアブレーション実験。
図 5 の視覚化結果では、研究者らは、WebP 圧縮歪み下でのさまざまな画像リサンプリング モデルの再構成結果を比較しました。また、SAIN モデルは、WebP 圧縮スキームの下で最高の再構成スコアを示し、画像の詳細を明確かつ正確に復元できることがわかり、SAIN がさまざまな圧縮スキームと互換性があることが証明されています。
図 5 WebP 圧縮下でのさまざまな方法の定性的および定量的な比較 (倍率 2 倍)。
さらに、この研究では、混合ガウス分布、E-InvBlock、損失関数のアブレーション実験も実施し、これらの改善が結果にプラスの影響を与えることを証明しました。 。 概要と展望
Volcano Engine Multimedia Laboratoryは、非圧縮画像リサンプリングのための非対称可逆フレームワークであるSAINに基づくモデルを提案しました。モデルは、リサンプリングと圧縮シミュレーションの 2 つの部分で構成されます。混合ガウス分布を使用して、解像度の低下と圧縮歪みによって引き起こされる結合情報損失をモデル化します。エンドツーエンドのトレーニング用に微分可能な JPEG 演算子と組み合わせられます。 -InvBlock はモデルを強化するために提案されており、フィッティング機能により一般的な圧縮アルゴリズムに対する堅牢性が大幅に向上します。
火山エンジン マルチメディア研究所は、ByteDance 傘下の研究チームです。マルチメディア分野の最先端技術の探索と国際標準化作業への参加に取り組んでいます。その多くの革新的なアルゴリズム、ソフトウェアおよびハードウェア ソリューションは広く利用されています。 Douyin、Douyin などで使用されます。Xigua Video およびその他の製品のマルチメディア ビジネスであり、Volcano Engine のエンタープライズ レベルの顧客に技術サービスを提供します。研究室の設立以来、多くの論文が一流の国際会議や主要ジャーナルに選出され、いくつかの国際技術コンテストチャンピオンシップ、業界イノベーション賞、最優秀論文賞を受賞しています。
今後、研究チームは、非可逆圧縮下での画像リサンプリング モデルのパフォーマンスの最適化を継続し、非圧縮ビデオ リサンプリングや任意のリサンプリングなど、より複雑なアプリケーション シナリオをさらに調査していきます。倍率リサンプリングです。
以上がByte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。