コーヒー買ってきて☕
*私の投稿では、画像分類 (認識)、オブジェクト位置特定、オブジェクト検出、画像セグメンテーションについて説明しています。
コンピュータービジョンは、コンピューターが画像やビデオなどの視覚的なものを理解し、分析できるようにするテクノロジーです。
(1) キーポイント検出(ランドマーク検出):
- 画像内のオブジェクトまたは関心領域の特徴的な点を特定できます。
*メモ:
- 画像はビデオ内の 1 フレームにすることができます。
-
オブジェクト ローカリゼーション または 画像分類 および オブジェクト ローカリゼーション(オブジェクト検出) が使用されます。
- can は、顔、その感情、人物のポーズ、服装などを認識するために使用されます。
(2) 画像マッチング:
- それらの特徴的な点を比較することにより、複数の画像内のオブジェクトと関心領域が同じであるか類似しているかを判断できます。
- は、キーポイント検出の高度なテクノロジーです。
- 顔や指紋などの照合に使用できます。
(3) オブジェクト追跡:
- バウンディングボックスを使用して、ビデオ(連続してキャプチャされた複数のフレーム)内のオブジェクトと関心領域を追跡できます。 *動画は連続して撮影した複数の画像でも構いません。
- は、物体検出の高度なテクノロジーです。
- は監視、自動運転車、仮想現実、製造、無人店舗などに使用されます。
(4) オプティカル フロー:
- は、ビデオ (連続してキャプチャされた複数のフレーム) 内のオブジェクトと関心領域の動き (速度) を検出して視覚化できます。
*メモ:
- 速度は、移動するオブジェクトの速度と方向です。
- ビデオには、連続してキャプチャされた複数の画像を含めることができます。
- は、オブジェクト追跡の分岐テクノロジーです。
- は監視、交通監視、動作分析などに使用されます。
(5) ステレオマッチング:
- 視差を計算することで、2 つ以上の 2D ステレオ画像から 3D シーンを作成できます。
*メモ:
- 2D ステレオ画像は、異なる位置から撮影された同様の画像です。
- 視差は、ステレオ画像内の 2 つ以上の対応するピクセル間の距離です。
- はロボット工学に使用されます。
(6) ビデオ予測は、過去のビデオ フレームから将来のビデオ フレームを予測できます。
(7) 画像キャプション:
- 画像のテキスト説明を生成できます。
- は、コンピュータービジョンと自然言語処理(NLP)を組み合わせた生成AIです。
以上がコンピュータービジョンとは何ですか? (2)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。