ホームページ >テクノロジー周辺機器 >AI >長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。

長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。

WBOY
WBOY転載
2023-04-13 17:10:031086ブラウズ

画像を観察するとき、画像内のどの内容に最初に注意を払いますか?画像内のどの領域に最初に注意を引きますか?機械は人間のこのような注意の形式を学習できますか? Google の調査によると、同社のオープンソース アテンション センター モデルはまさにそれを実現します。また、このモデルは JPEG XL 画像形式で使用できます。

たとえば、以下の図は、注目中心モデルのいくつかの予測例です。緑の点は、画像の予測された注目中心点です。

長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。

Kodak 画像データセットからの画像: http://r0k.us/graphics/kodak/

アテンション センター モデルのサイズは 2MB で、形式は TensorFlow Lite です。 RGB 画像を入力として受け取り、画像上の予測された注目の中心点である 2D 点を出力します。

アテンション センターを予測するモデルをトレーニングするには、まずアテンション センターからの実際のデータが必要です。画像が与えられると、アイ トラッカーを使用していくつかの注意点を収集したり、マウスで画像をクリックしてアプローチしたりできます。この研究では、まずこれらの注目点に対して時間的フィルタリングを実行し、最初の注目点のみを保持し、次に空間的フィルタリングを適用してノイズを除去します。最後に、残りの注目点の中心が、グラウンド トゥルースの注目中心として計算されます。真理値を取得するプロセスの例を以下に示します。

長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。

# プロジェクトアドレス: https://github.com/google/attention-centerアテンション センター モデル アーキテクチャ

アテンション センター モデルは、画像を入力として受け取り、ResNet、MobileNet などの事前トレーニングされた分類ネットワークを使用するディープ ニューラル ネットワークです。 。 背骨。バックボーン ネットワークから出力されたいくつかの中間層は、注意中心予測モジュールへの入力として使用されます。これらの異なる中間レイヤーには異なる情報が含まれています。たとえば、浅いレイヤーには通常、強度/色/テクスチャなどの低レベルの情報が含まれ、深いレイヤーには通常、形状/オブジェクトなどのより高度でより意味論的な情報が含まれます。

注意中心予測では、コンボリューションおよびデコンボリューション調整演算子を、集計関数およびシグモイド関数と組み合わせて使用​​し、注意中心の重みマップを生成します。次に、演算子 (この例ではアインシュタイン合計演算子) を使用して、加重グラフから中心を計算できます。予測された注意中心と真の注意中心の間の L2 ノルムがトレーニング損失として使用されます。

長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。

さらに、JPEG XL は、ユーザーが興味深い部分が最初に表示されるような方法で画像をエンコードできる新しい画像形式です。この利点は、ユーザーがオンラインで画像を閲覧するときに、画像の魅力的な部分、つまりユーザーが最初に見る部分を最初に表示できることです。画像が最初に表示され、他の部分はすでに配置され、デコードされています。

JPEG XL では、画像は通常、サイズ 256 x 256 のマトリックスに分割されます。JPEG XL エンコーダは画像内の開始グループを選択し、同心円状の正方形を生成します。 Chrome では、バージョン 107 以降、JPEG XL 画像のプログレッシブ デコードが追加されました。現在、JPEG XL はまだ実験的な製品であり、chrome://flags で jxl を検索することで有効にできます。

JPEG XL 画像のプログレッシブ読み込みの効果を理解するには、次の URL にアクセスして表示できます:

https://google。 github.io/attention-center/

以上が長時間画像が読み込めずモザイク? Google のオープンソース モデルでは、画像の最も興味深い部分を優先的に表示します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。