ホームページ > 記事 > テクノロジー周辺機器 > コンピュータービジョン画像分類
この記事は、著者 Beishang が執筆した WeChat 公開アカウント「AI Origin」から転載したものです。この記事を転載するには、AI Yuanqi 公開アカウントにご連絡ください。
数字を言えますか?
AIといえば誰もが思い浮かべるのは、『流浪の地球2』のMOSSのような知的ハードウェア生命体であり、全知全能のようであり、インターネットさえ与えられれば、アベンジャーズ 2 のウルトロンのように、彼はインターネットを使ってあらゆる場所に拡散し、「世界平和」を達成するために人類を排除する計画を常に考えています。
#しかし実際には、現在の AI は、映画やテレビの作品で誰もが感じたり経験したりするものにはまだ程遠いです。例として、AI が実際にどのような形で存在するかを調べてみましょう。この記事には、記事を段階的に理解できるよう、いくつかの重要な質問ごとに索引が付けられています。ついて来い、行きましょう ~
これは数字の絵です。見たらすぐに反応できると思います。これは数字「3」の絵です(かなり曖昧ですが)。
最初の質問: 本当の知性 - なぜこれが数字の「3」であることが明確にわかるのですか?これはどういう意味ですか?
この写真を見ると、目は光信号を生体信号に変換し、網膜上での光の反射を通じて脳が認識できるようにし、情報のこの部分を一時的に保存します(理解を助けるためだけであり、そうではありません)実際のところ?) 網膜上にあります。脳が信号を受信すると、賢い小さな脳は、これが数字の「3」であることをすぐに認識します。この時点で、あなたは絵を完全に理解しており、それは「3」です。もちろん、これらすべての基礎は、この形の数字は、5、6、その他の数字ではなく、3 と「同等」であると子供の頃から教えられてきたことです。
2 番目の質問: 目、網膜 — コンピューターは物理世界を認識するためにどのような形式の入力を使用しますか?
コンピューターと AI の関係は何ですか? AI は、私たち自身が知性と生命を持っているのと同じように、コンピューターの計算能力とアーキテクチャを必要とする疑似知能能力であると簡単に理解できますが、実際には私たちは本質的に炭素ベースの生物です。ご存知のように、コンピューターの世界は 2 進数の世界ですが、2 進数とは? 簡単に言うと、0 か 1 のどちらかです。現時点では疑問に思われていると思いますが、0 か 1 の 2 進数だけでこれほど多くの機能を実現できるのでしょうか? それほど強力な計算能力があるのでしょうか?しかし、心配しないでください。ここで明確にする必要がある概念があります。つまり、2 進数は任意の基数の数値を表現できるということです (最初はそれが正しいと考えることができます。これについては、特に必要な場合に後で説明します)。たとえば、一般的に使用される 10 進数の 13 を 2 進数で表すと、次は 1101 です。注意深く勉強したい人は、下の図の説明を参照してください。
#したがって、数値については、コンピューターはバイナリを通じてそれを「理解」できることが明確に理解できます。写真を数字の列に変換できれば、コンピュータは0と1しか知らないバカから、写真から情報を入力できるコンピュータに変わることができるでしょうか(分からない人は脇に置いておいてください。子供は成長したらまず食べることを学ばなければなりません)。以下の図に示すように、画像の各小さな領域はピクセルとして考えることができ、1 つのピクセルが色を表します。ご存知のとおり、任意の色は赤、緑、青 (青) を通過することができ、その後、左から右、上から下の順に数値のリストを作成し、その内容をコンピューターに送信します。
この時点で、コンピュータが理解できるかどうかに関係なく、画像はコンピュータが受け入れられる信号に変換されています。脳は絵の中の信号を識別しますか?その数字は「3」です
3 番目の質問: いわゆる AI、コンピューターはこの絵の中の数字が「3」であるとどのように判断するのでしょうか
コンピュータにこのような画像を 2 枚与えると、左側の画像が数字の「3」であることがわかります。これには人工知能があると思いますか?素朴すぎると思うかもしれませんが、これは3歳児でも知っています。しかし、右の写真にアオアシカツオドリやその他の珍しい鳥類の 10,000 枚の写真があり、コンピューターがさまざまな珍しい生き物を 99% の精度で正確に識別するのに数秒しかかからないとしたら、そうですよね? AIみたいな感じ?
従来の認識方法 - 具体的には、画像をデジタル マトリックスに変換することができ、画像内の特徴を識別します。抽出には、たとえば、いくつかのハード ルールが特徴として使用されます。 「3」という数字は、私たちの脳でこの形を見たとき、無意識に「3」と反応しますが、コンピュータにとっては数字の羅列です。そのため、初期の頃に同様の画像分類タスクを実行する際、エンジニアは数字の「3」にマッピングされたデジタル シーケンスを処理する必要があり、これは本当に頭の痛い問題でした。したがって、特徴をどのように作成するかは、従来の画像認識と分類において重要ではありますが、非常に面倒なプロセスです。
従来の認識手法の利点は、認識結果が間違っていた場合、特徴量を表示することでエラーの原因を大まかに特定できることですが、欠点は特徴量エンジニアリングが煩雑であることです。特徴量エンジニアリングを弱め (ただし、特徴量エンジニアリングは後続の多くのタスクにとっても非常に重要です)、エンドツーエンドのソリューションを提供する方法はありますか。いわゆるエンドツーエンドとは、デジタル画像とその分類結果を与えるだけで、コンピューターに認識ソリューションを自動的に学習させることを意味します (人間の学習アイデアに似ていますか)。時代の変化とコンピューターの計算能力の大幅な向上により、ニューラルネットワークに基づく深層学習アルゴリズムが徐々に使用されるようになりました。
ディープ ニューラル ネットワークの認識方法 - この言葉は非常に奥が深いです。コンピュータを学習したりアルゴリズムを学習したりしない人は、直接怖がるかもしれません。一文で説明しましょう。ディープ ニューラル ネットワークとは (dog head.jpg): 入力データと指定されたラベルの間には、ある種の非線形相関があり、ニューラル ネットワークは複数の非線形関数を使用して、上記の相関関係を近似します。非線形相関。以下に示すように、これは単純なディープ ニューラル ネットワークであり、一番左の絵(文字「A」)と右側は、絵を数値に変換して「知的」な演算を実行する構造であり、「脳」として理解できます。 」。
以上がコンピュータービジョン画像分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。