ホームページ > 記事 > テクノロジー周辺機器 > エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました
現在のディープ エッジ検出ネットワークは通常、エンコーダ/デコーダ アーキテクチャを採用しており、マルチレベルの特徴をより適切に抽出するためのアップ サンプリング モジュールとダウン サンプリング モジュールが含まれています。ただし、この構造では、ネットワークが正確かつ詳細なエッジ検出結果を出力することが制限されます。
この問題に対して、AAAI 2024 の論文では新しい解決策が提供されています。
#図 1 拡散確率モデルに基づくエッジ検出プロセスと利点の例
この記事の内容:
エッジ検出タスク用の拡散モデル DiffusionEdge を提案しました。これにより、後処理なしでより細かく、より正確なエッジ マップを予測できます。
拡散モデルを適用する際の困難を解決するために、メソッドが潜在空間で安定して学習することを保証するさまざまな手法を設計しました。同時に、ピクセルレベルの不確実性の事前知識も保持し、フーリエ空間の潜在的な特徴を適応的にフィルタリングします。
3. 4 つのエッジ検出公開ベンチマーク データ セットに対して行われた広範な比較実験により、DifffusionEdge には精度と精細さの点で優れたパフォーマンス上の利点があることが実証されました。
関連研究
拡散モデルは、マルコフ連鎖に基づく生成モデルの一種であり、学習ノイズ除去プロセスを通じてターゲット データ サンプルを徐々に復元します。拡散モデルは、コンピュータ ビジョン、自然言語処理、オーディオ生成などの分野で優れたパフォーマンスを示しています。それだけでなく、画像やその他のモーダル入力を追加条件として使用することで、画像セグメンテーション [7]、ターゲット検出 [8]、姿勢推定 [9] などの知覚タスクでも大きな可能性を示します。
手法の説明
図 2 DiffusionEdge の全体構造
現在の拡散モデルはサンプリング ステップが多すぎる、推論時間が長すぎるなどの問題に悩まされているため、この方法は影響を受けます。 by DDM [10] からインスピレーションを得た、分離拡散モデル アーキテクチャは、サンプリング推論プロセスを高速化するためにも使用されます。このうち、分離された順拡散プロセスは、明示的な遷移確率と標準ウィナー プロセスの組み合わせによって制御されます。
ここで、 と はそれぞれ初期エッジとノイズ エッジを表し、 は逆エッジ勾配の明示的な変換関数を指します。 DDM と同様に、このメソッドはデフォルトで定数関数 を使用し、対応する逆プロセスは次のように表すことができます:
where 。分離拡散モデルをトレーニングするには、この方法ではデータとノイズ成分を同時に監視する必要があるため、トレーニング目標は次のようにパラメータ化できます。
# #ここで、 はノイズ除去ネットワークのパラメーターです。拡散モデルを元の画像空間で学習させると計算コストがかかりすぎるため、[11] の考え方を参考に、本論文で提案する手法では学習プロセスを 4 倍の潜在空間に転送します。ダウンサンプリング空間のサイズ。
図 2 に示すように、このメソッドは最初にオートエンコーダーとデコーダー ネットワークのペアをトレーニングします。エンコーダーはエッジ アノテーションを潜在変数に圧縮し、デコーダーは元のエッジを復元するために使用されます。この潜在変数からラベルを取得します。このように、この方法は、U-Net 構造に基づくノイズ除去ネットワークのトレーニング段階で、オートエンコーダーとデコーダー ネットワークのペアの重みを固定し、潜在空間でノイズ除去プロセスをトレーニングするため、計算量を大幅に削減できます。ネットワークのコスト、良好なパフォーマンスを維持しながらのリソースの消費。
ネットワークの最終パフォーマンスを向上させるために、この記事で提案する方法では、デカップリング操作でさまざまな周波数の特徴を適応的にフィルタリングできるモジュールを導入しています。図 2 の左下隅に示すように、この方法では、デカップリング操作の前に、適応型高速フーリエ変換フィルター (適応型 FFT フィルター) をノイズ除去 Unet ネットワークに統合し、周波数領域で適応的にフィルター処理して分離します。コンポーネント。具体的には、エンコーダ特徴 が与えられると、メソッドはまず空間次元に沿って 2 次元フーリエ変換 (FFT) を実行し、変換された特徴を として表します。次に、この適応スペクトル フィルタリング モジュールをトレーニングするために、学習可能な重みマップ が構築され、その W に Fc が乗算されます。スペクトル フィルターは特定の周波数をグローバルに調整でき、学習された重みはさまざまなデータセット内のターゲット分布のさまざまな周波数ケースに適応できます。この方法は、無駄な成分を適応的にフィルタリングして除去することにより、逆高速フーリエ変換 (IFFT) 操作を通じて、周波数領域の特徴を空間領域にマッピングし直します。最後に、 からの残りの接続を追加導入することで、すべての有用な情報が完全に除外されることを回避します。上記のプロセスは、次の式で説明できます。
ここで、 は出力特徴量、o はアダマール積を表します。
エッジ ピクセルと非エッジ ピクセルの数は非常にアンバランスであるため (ほとんどのピクセルは非エッジ背景)、以前の研究を参照して、不確実性を考慮した損失関数も導入します。電車。具体的には、j 番目のエッジ マップの i 番目のピクセルの i 番目のピクセルの真のエッジ確率として、その値が である場合、不確実性を考慮した WCE 損失は次のように計算されます。
#
where, ここで、 は、真の値アノテーションの不確実なエッジ ピクセルを決定するしきい値です。ピクセル値が 0 より大きく、このしきい値より小さい場合、このタイプのブラーは次のようになります。十分な自信がありません。ピクセル サンプルは後続の最適化プロセスでは無視されます (損失関数は 0)。 と はそれぞれ、グラウンド トゥルースの注釈付きエッジ マップ内のエッジ ピクセルと非エッジ ピクセルの数を表します。 と の重みのバランスを取るために使用されます (1.1 に設定)。したがって、各エッジ マップの最終的な損失関数は として計算されます。
最適化プロセス中にぼやけた信頼性の低いピクセルを無視すると、ネットワークの混乱が回避され、トレーニング プロセスがより安定して収束し、モデルのパフォーマンスが向上します。ただし、数値的にも空間的にもずれている潜在空間にバイナリのクロスエントロピー損失を直接適用することはほとんど不可能です。特に、不確実性を考慮したクロスエントロピー損失では、しきい値 (通常は 0 から 1) を使用して、ピクセルが画像空間から定義されるエッジであるかどうかを判断しますが、潜在変数は正規分布に従い、完全に異なるものになります。範囲と実際的な重要性。さらに、ピクセルレベルの不確実性は、エンコードおよびダウンサンプリングされた潜在特徴のサイズの違いと調和させるのが難しく、この 2 つは直接互換性がありません。したがって、潜在変数を最適化するためにクロスエントロピー損失を直接適用すると、必然的に不確実性の誤った認識につながります。
一方、潜在変数をデコードして画像レベルに戻すことを選択することもでき、不確実性を考慮したクロスエントロピー損失を使用して予測エッジ結果マップを直接監視できます。残念ながら、この実装では逆伝播されたパラメータ勾配が冗長オートエンコーダ ネットワークを通過できるため、勾配を効果的に転送することが困難になります。さらに、オートエンコーダ ネットワークでの追加の勾配計算は、膨大な GPU メモリ消費コストをもたらしますが、これは実用的なエッジ検出器を設計するというこの方法の本来の目的に反しており、実用的なアプリケーションに一般化することが困難です。そこで本手法は,潜在空間上の勾配を直接最適化できる不確実性蒸留損失を提案する.この方法では、連鎖則に基づいて不確実性を考慮したバイナリ クロスエントロピー損失 の勾配を直接計算することを考慮しています。具体的な計算方法は次のとおりです:
オートエンコーダ ネットワークの悪影響を排除するために、このメソッドはオートエンコーダ
を直接スキップして勾配を渡し、勾配の計算方法 を次のように調整します。
# このような実装により、計算コストが大幅に削減され、不確実性を考慮した損失関数を使用して潜在変数を直接最適化できるようになります。このように、ステップ数 t に応じて適応的に変化する時間変化する損失重み と組み合わせると、この方法の最終的なトレーニング最適化目標は次のように表すことができます: この方法は、BSDS、NYUDv2、Multicue、BIPED の 4 つの分野で広く使用されているエッジ検出用の公的標準データ セットでテストされました。 。エッジ検出データにラベルを付けるのは難しく、ラベル付けされたデータの量は比較的少ないため、従来の方法では通常、データ セットを強化するためにさまざまな戦略が使用されていました。たとえば、BSDS の画像は、水平反転 (2 倍)、スケーリング (3 倍)、および回転 (16 倍) によって強化され、その結果、元のバージョンよりも 96 倍大きいトレーニング セットが生成されます。他のデータセットで以前の方法で使用された一般的な強調戦略を表 1 にまとめます。ここで、F は水平方向の反転、S はスケーリング、R は回転、C はトリミング、G はガンマ補正を表します。違いは、この方法では、すべてのデータをトレーニングするために、ランダムに切り取られた 320320 の画像パッチを使用するだけでよいということです。 BSDS データセットでは、この方法はランダムな反転とスケーリングのみを使用しており、その定量的な比較結果を表 2 に示します。 NYUDv2、Multicue、および BIPED データセットでは、メソッドはランダムな反転でトレーニングするだけで済みます。この方法は、強化戦略の数が少ないため、さまざまなデータセットやさまざまな指標に対して以前の方法よりも優れたパフォーマンスを発揮します。図 3-5 の予測結果を観察すると、DifffusionEdge が gt 分布とほぼ同じエッジ検出結果を学習および予測できることがわかります。正確で明確な予測結果の利点は、改良が必要な下流のタスクにとって非常に重要です。 . 、その後のタスクに直接適用できる大きな可能性も実証しました。 #表 1 4 つのエッジ検出データ セットに対する以前の方法で使用された拡張戦略 表 2 BSDS データセットのさまざまなメソッドの定量的比較 図 3 BSDS データセットのさまざまなメソッドの定性的比較
##図 5 BIPED データセットでのさまざまな手法の定性的比較実験結果
以上がエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。