ホームページ >テクノロジー周辺機器 >AI >エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

WBOY
WBOY転載
2024-02-07 22:12:02715ブラウズ

現在のディープ エッジ検出ネットワークは通常、エンコーダ/デコーダ アーキテクチャを採用しており、マルチレベルの特徴をより適切に抽出するためのアップ サンプリング モジュールとダウン サンプリング モジュールが含まれています。ただし、この構造では、ネットワークが正確かつ詳細なエッジ検出結果を出力することが制限されます。

この問題に対して、AAAI 2024 の論文では新しい解決策が提供されています。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました


  • 論文のタイトル: DiffusionEdge: 鮮明なエッジ検出のための拡散確率モデル
  • ##著者: Ye Yunfan (国立国防技術大学)、Xu Kai (国立国防技術大学)、Huang Yuxing (国立国防技術大学)、Yi Renjiao (国立国防技術大学)、Cai Zhiping (防衛工科大学)
  • 論文リンク: https://arxiv.org/abs/2401.02032
  • オープンソース コード: https ://github.com/GuHuangAI/DiffusionEdge
国立防衛工科大学 iGRAPE Lab が 2 次元エッジの新しい手法を提案検出タスク。この方法では、拡散確率モデルを利用して、学習反復ノイズ除去プロセス中にエッジ結果マップを生成します。コンピューティング リソースの消費を削減するために、この方法では潜在スペースを使用してネットワークをトレーニングし、不確実性蒸留モジュールを導入してパフォーマンスを最適化します。同時に、この方法では、ノイズ除去プロセスを高速化するために分離アーキテクチャも採用し、特徴を調整するために適応フーリエ フィルターを導入します。これらの設計により、この方法は限られたリソースで安定してトレーニングし、より少ない拡張戦略で明確で正確なエッジ マップを予測できます。実験結果は、この方法が 4 つの公開ベンチマーク データセットにおける精度と精度の点で他の方法よりも大幅に優れていることを示しています。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました#図 1 拡散確率モデルに基づくエッジ検出プロセスと利点の例

この記事の内容:

エッジ検出タスク用の拡散モデル DiffusionEdge を提案しました。これにより、後処理なしでより細かく、より正確なエッジ マップを予測できます。

拡散モデルを適用する際の困難を解決するために、メソッドが潜在空間で安定して学習することを保証するさまざまな手法を設計しました。同時に、ピクセルレベルの不確実性の事前知識も保持し、フーリエ空間の潜在的な特徴を適応的にフィルタリングします。

3. 4 つのエッジ検出公開ベンチマーク データ セットに対して行われた広範な比較実験により、DifffusionEdge には精度と精細さの点で優れたパフォーマンス上の利点があることが実証されました。

関連研究

ディープ ラーニングに基づくメソッドは、通常、多層機能を統合するためにアップ サンプリングとダウン サンプリングを含むコーデック構造を採用します [1- 2]、または複数のアノテーションの不確実性情報を統合して、エッジ検出の精度を向上させます [3]。ただし、そのような構造によって当然制限されるため、生成されるエッジ結果マップは下流のタスクには厚すぎ、後処理に大きく依存するため、この問題はまだ解決される必要があります。ネットワークがより細かいエッジを出力できるようにするために、損失関数 [4-5] やラベル修正戦略 [6] で多くの研究が行われてきましたが、この論文では、この分野には追加のモジュールなしで使用できる方法がまだ必要であると考えています。後処理ステップを必要とせずに、精度と精細度を直接満たす検出器です。

拡散モデルは、マルコフ連鎖に基づく生成モデルの一種であり、学習ノイズ除去プロセスを通じてターゲット データ サンプルを徐々に復元します。拡散モデルは、コンピュータ ビジョン、自然言語処理、オーディオ生成などの分野で優れたパフォーマンスを示しています。それだけでなく、画像やその他のモーダル入力を追加条件として使用することで、画像セグメンテーション [7]、ターゲット検出 [8]、姿勢推定 [9] などの知覚タスクでも大きな可能性を示します。

手法の説明

この記事で提案する DiffusionEdge 手法の全体的な枠組みを図 2 に示します。以前の研究からインスピレーションを得たこの方法は、潜在空間内の分離構造を使用して拡散モデルをトレーニングし、追加の条件付きキューとして画像を入力します。この方法では、周波数解析に適応フーリエ フィルターが導入されており、複数のアノテーターからのピクセル レベルの不確実性情報を保持し、コンピューティング リソースの要件を軽減するために、蒸留された方法でクロスエントロピー損失の最適化も直接使用されます。

図 2 DiffusionEdge の全体構造

現在の拡散モデルはサンプリング ステップが多すぎる、推論時間が長すぎるなどの問題に悩まされているため、この方法は影響を受けます。 by DDM [10] からインスピレーションを得た、分離拡散モデル アーキテクチャは、サンプリング推論プロセスを高速化するためにも使用されます。このうち、分離された順拡散プロセスは、明示的な遷移確率と標準ウィナー プロセスの組み合わせによって制御されます。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました ここで、エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました はそれぞれ初期エッジとノイズ エッジを表し、エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました は逆エッジ勾配の明示的な変換関数を指します。 DDM と同様に、このメソッドはデフォルトで定数関数 を使用し、対応する逆プロセスは次のように表すことができます:

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたwhere 。分離拡散モデルをトレーニングするには、この方法ではデータとノイズ成分を同時に監視する必要があるため、トレーニング目標は次のようにパラメータ化できます。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

# #ここで、エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました はノイズ除去ネットワークのパラメーターです。拡散モデルを元の画像空間で学習させると計算コストがかかりすぎるため、[11] の考え方を参考に、本論文で提案する手法では学習プロセスを 4 倍の潜在空間に転送します。ダウンサンプリング空間のサイズ。

図 2 に示すように、このメソッドは最初にオートエンコーダーとデコーダー ネットワークのペアをトレーニングします。エンコーダーはエッジ アノテーションを潜在変数に圧縮し、デコーダーは元のエッジを復元するために使用されます。この潜在変数からラベルを取得します。このように、この方法は、U-Net 構造に基づくノイズ除去ネットワークのトレーニング段階で、オートエンコーダーとデコーダー ネットワークのペアの重みを固定し、潜在空間でノイズ除去プロセスをトレーニングするため、計算量を大幅に削減できます。ネットワークのコスト、良好なパフォーマンスを維持しながらのリソースの消費。

ネットワークの最終パフォーマンスを向上させるために、この記事で提案する方法では、デカップリング操作でさまざまな周波数の特徴を適応的にフィルタリングできるモジュールを導入しています。図 2 の左下隅に示すように、この方法では、デカップリング操作の前に、適応型高速フーリエ変換フィルター (適応型 FFT フィルター) をノイズ除去 Unet ネットワークに統合し、周波数領域で適応的にフィルター処理して分離します。コンポーネント。具体的には、エンコーダ特徴 エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました が与えられると、メソッドはまず空間次元に沿って 2 次元フーリエ変換 (FFT) を実行し、変換された特徴を エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました として表します。次に、この適応スペクトル フィルタリング モジュールをトレーニングするために、学習可能な重みマップ エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました が構築され、その W に Fc が乗算されます。スペクトル フィルターは特定の周波数をグローバルに調整でき、学習された重みはさまざまなデータセット内のターゲット分布のさまざまな周波数ケースに適応できます。この方法は、無駄な成分を適応的にフィルタリングして除去することにより、逆高速フーリエ変換 (IFFT) 操作を通じて、周波数領域の特徴を空間領域にマッピングし直します。最後に、 からの残りの接続を追加導入することで、すべての有用な情報が完全に除外されることを回避します。上記のプロセスは、次の式で説明できます。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

ここで、エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました は出力特徴量、o はアダマール積を表します。

エッジ ピクセルと非エッジ ピクセルの数は非常にアンバランスであるため (ほとんどのピクセルは非エッジ背景)、以前の研究を参照して、不確実性を考慮した損失関数も導入します。電車。具体的には、j 番目のエッジ マップの i 番目のピクセルの i 番目のピクセルの真のエッジ確率として、その値が エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました である場合、不確実性を考慮した WCE 損失は次のように計算されます。


エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました


#

whereエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました, ここで、エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました は、真の値アノテーションの不確実なエッジ ピクセルを決定するしきい値です。ピクセル値が 0 より大きく、このしきい値より小さい場合、このタイプのブラーは次のようになります。十分な自信がありません。ピクセル サンプルは後続の最適化プロセスでは無視されます (損失関数は 0)。 エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました はそれぞれ、グラウンド トゥルースの注釈付きエッジ マップ内のエッジ ピクセルと非エッジ ピクセルの数を表します。 エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました の重みのバランスを取るために使用されます (1.1 に設定)。したがって、各エッジ マップの最終的な損失関数は エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました として計算されます。

最適化プロセス中にぼやけた信頼性の低いピクセルを無視すると、ネットワークの混乱が回避され、トレーニング プロセスがより安定して収束し、モデルのパフォーマンスが向上します。ただし、数値的にも空間的にもずれている潜在空間にバイナリのクロスエントロピー損失を直接適用することはほとんど不可能です。特に、不確実性を考慮したクロスエントロピー損失では、しきい値 (通常は 0 から 1) を使用して、ピクセルが画像空間から定義されるエッジであるかどうかを判断しますが、潜在変数は正規分布に従い、完全に異なるものになります。範囲と実際的な重要性。さらに、ピクセルレベルの不確実性は、エンコードおよびダウンサンプリングされた潜在特徴のサイズの違いと調和させるのが難しく、この 2 つは直接互換性がありません。したがって、潜在変数を最適化するためにクロスエントロピー損失を直接適用すると、必然的に不確実性の誤った認識につながります。 エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

一方、潜在変数をデコードして画像レベルに戻すことを選択することもでき、不確実性を考慮したクロスエントロピー損失を使用して予測エッジ結果マップを直接監視できます。残念ながら、この実装では逆伝播されたパラメータ勾配が冗長オートエンコーダ ネットワークを通過できるため、勾配を効果的に転送することが困難になります。さらに、オートエンコーダ ネットワークでの追加の勾配計算は、膨大な GPU メモリ消費コストをもたらしますが、これは実用的なエッジ検出器を設計するというこの方法の本来の目的に反しており、実用的なアプリケーションに一般化することが困難です。そこで本手法は,潜在空間上の勾配を直接最適化できる不確実性蒸留損失を提案する.この方法では、連鎖則に基づいて不確実性を考慮したバイナリ クロスエントロピー損失 の勾配を直接計算することを考慮しています。具体的な計算方法は次のとおりです: エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

オートエンコーダ ネットワークの悪影響を排除するために、このメソッドはオートエンコーダ

を直接スキップして勾配を渡し、勾配の計算方法 を次のように調整します。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

# このような実装により、計算コストが大幅に削減され、不確実性を考慮した損失関数を使用して潜在変数を直接最適化できるようになります。このように、ステップ数 t に応じて適応的に変化する時間変化する損失重み エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました と組み合わせると、この方法の最終的なトレーニング最適化目標は次のように表すことができます:

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

実験結果

この方法は、BSDS、NYUDv2、Multicue、BIPED の 4 つの分野で広く使用されているエッジ検出用の公的標準データ セットでテストされました。 。エッジ検出データにラベルを付けるのは難しく、ラベル付けされたデータの量は比較的少ないため、従来の方法では通常、データ セットを強化するためにさまざまな戦略が使用されていました。たとえば、BSDS の画像は、水平反転 (2 倍)、スケーリング (3 倍)、および回転 (16 倍) によって強化され、その結果、元のバージョンよりも 96 倍大きいトレーニング セットが生成されます。他のデータセットで以前の方法で使用された一般的な強調戦略を表 1 にまとめます。ここで、F は水平方向の反転、S はスケーリング、R は回転、C はトリミング、G はガンマ補正を表します。違いは、この方法では、すべてのデータをトレーニングするために、ランダムに切り取られた 320320 の画像パッチを使用するだけでよいということです。 BSDS データセットでは、この方法はランダムな反転とスケーリングのみを使用しており、その定量的な比較結果を表 2 に示します。 NYUDv2、Multicue、および BIPED データセットでは、メソッドはランダムな反転でトレーニングするだけで済みます。この方法は、強化戦略の数が少ないため、さまざまなデータセットやさまざまな指標に対して以前の方法よりも優れたパフォーマンスを発揮します。図 3-5 の予測結果を観察すると、DifffusionEdge が gt 分布とほぼ同じエッジ検出結果を学習および予測できることがわかります。正確で明確な予測結果の利点は、改良が必要な下流のタスクにとって非常に重要です。 . 、その後のタスクに直接適用できる大きな可能性も実証しました。

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

#表 1 4 つのエッジ検出データ セットに対する以前の方法で使用された拡張戦略

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

表 2 BSDS データセットのさまざまなメソッドの定量的比較

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

図 3 BSDS データセットのさまざまなメソッドの定性的比較

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

#図 4 NYUDv2 データセットでのさまざまな手法の定性的比較

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

##図 5 BIPED データセットでのさまざまな手法の定性的比較

以上がエンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。