コンピュータービジョン画像分類-AI-php.cn

ホームページ

テクノロジー周辺機器

コンピュータービジョン画像分類

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 07, 2023 pm 10:01 PM

コンピューター写真ビジョン

この記事は、著者 Beishang が執筆した WeChat 公開アカウント「AI Origin」から転載したものです。この記事を転載するには、AI Yuanqi 公開アカウントにご連絡ください。

数字を言えますか?

AIといえば誰もが思い浮かべるのは、『流浪の地球2』のMOSSのような知的ハードウェア生命体であり、全知全能のようであり、インターネットさえ与えられれば、アベンジャーズ 2 のウルトロンのように、彼はインターネットを使ってあらゆる場所に拡散し、「世界平和」を達成するために人類を排除する計画を常に考えています。

コンピュータービジョン画像分類

#しかし実際には、現在の AI は、映画やテレビの作品で誰もが感じたり経験したりするものにはまだ程遠いです。例として、AI が実際にどのような形で存在するかを調べてみましょう。この記事には、記事を段階的に理解できるよう、いくつかの重要な質問ごとに索引が付けられています。ついて来い、行きましょう ~

これは数字の絵です。見たらすぐに反応できると思います。これは数字「3」の絵です(かなり曖昧ですが)。

コンピュータービジョン画像分類

最初の質問: 本当の知性 - なぜこれが数字の「3」であることが明確にわかるのですか?これはどういう意味ですか？

この写真を見ると、目は光信号を生体信号に変換し、網膜上での光の反射を通じて脳が認識できるようにし、情報のこの部分を一時的に保存します（理解を助けるためだけであり、そうではありません）実際のところ?) 網膜上にあります。脳が信号を受信すると、賢い小さな脳は、これが数字の「3」であることをすぐに認識します。この時点で、あなたは絵を完全に理解しており、それは「3」です。もちろん、これらすべての基礎は、この形の数字は、5、6、その他の数字ではなく、3 と「同等」であると子供の頃から教えられてきたことです。

コンピュータービジョン画像分類

2 番目の質問: 目、網膜 — コンピューターは物理世界を認識するためにどのような形式の入力を使用しますか?

コンピューターと AI の関係は何ですか? AI は、私たち自身が知性と生命を持っているのと同じように、コンピューターの計算能力とアーキテクチャを必要とする疑似知能能力であると簡単に理解できますが、実際には私たちは本質的に炭素ベースの生物です。ご存知のように、コンピューターの世界は 2 進数の世界ですが、2 進数とは? 簡単に言うと、0 か 1 のどちらかです。現時点では疑問に思われていると思いますが、0 か 1 の 2 進数だけでこれほど多くの機能を実現できるのでしょうか? それほど強力な計算能力があるのでしょうか?しかし、心配しないでください。ここで明確にする必要がある概念があります。つまり、2 進数は任意の基数の数値を表現できるということです (最初はそれが正しいと考えることができます。これについては、特に必要な場合に後で説明します)。たとえば、一般的に使用される 10 進数の 13 を 2 進数で表すと、次は 1101 です。注意深く勉強したい人は、下の図の説明を参照してください。

コンピュータービジョン画像分類

#したがって、数値については、コンピューターはバイナリを通じてそれを「理解」できることが明確に理解できます。写真を数字の列に変換できれば、コンピュータは0と1しか知らないバカから、写真から情報を入力できるコンピュータに変わることができるでしょうか（分からない人は脇に置いておいてください。子供は成長したらまず食べることを学ばなければなりません）。以下の図に示すように、画像の各小さな領域はピクセルとして考えることができ、1 つのピクセルが色を表します。ご存知のとおり、任意の色は赤、緑、青 (青) を通過することができ、その後、左から右、上から下の順に数値のリストを作成し、その内容をコンピューターに送信します。

コンピュータービジョン画像分類

この時点で、コンピュータが理解できるかどうかに関係なく、画像はコンピュータが受け入れられる信号に変換されています。脳は絵の中の信号を識別しますか?その数字は「3」です

3 番目の質問: いわゆる AI、コンピューターはこの絵の中の数字が「3」であるとどのように判断するのでしょうか

コンピュータにこのような画像を 2 枚与えると、左側の画像が数字の「3」であることがわかります。これには人工知能があると思いますか?素朴すぎると思うかもしれませんが、これは3歳児でも知っています。しかし、右の写真にアオアシカツオドリやその他の珍しい鳥類の 10,000 枚の写真があり、コンピューターがさまざまな珍しい生き物を 99% の精度で正確に識別するのに数秒しかかからないとしたら、そうですよね? AIみたいな感じ？

コンピュータービジョン画像分類

従来の認識方法 - 具体的には、画像をデジタルマトリックスに変換することができ、画像内の特徴を識別します。抽出には、たとえば、いくつかのハードルールが特徴として使用されます。「3」という数字は、私たちの脳でこの形を見たとき、無意識に「3」と反応しますが、コンピュータにとっては数字の羅列です。そのため、初期の頃に同様の画像分類タスクを実行する際、エンジニアは数字の「3」にマッピングされたデジタルシーケンスを処理する必要があり、これは本当に頭の痛い問題でした。したがって、特徴をどのように作成するかは、従来の画像認識と分類において重要ではありますが、非常に面倒なプロセスです。

従来の認識手法の利点は、認識結果が間違っていた場合、特徴量を表示することでエラーの原因を大まかに特定できることですが、欠点は特徴量エンジニアリングが煩雑であることです。特徴量エンジニアリングを弱め (ただし、特徴量エンジニアリングは後続の多くのタスクにとっても非常に重要です)、エンドツーエンドのソリューションを提供する方法はありますか。いわゆるエンドツーエンドとは、デジタル画像とその分類結果を与えるだけで、コンピューターに認識ソリューションを自動的に学習させることを意味します (人間の学習アイデアに似ていますか)。時代の変化とコンピューターの計算能力の大幅な向上により、ニューラルネットワークに基づく深層学習アルゴリズムが徐々に使用されるようになりました。

コンピュータービジョン画像分類

ディープニューラルネットワークの認識方法 - この言葉は非常に奥が深いです。コンピュータを学習したりアルゴリズムを学習したりしない人は、直接怖がるかもしれません。一文で説明しましょう。ディープニューラルネットワークとは (dog head.jpg): 入力データと指定されたラベルの間には、ある種の非線形相関があり、ニューラルネットワークは複数の非線形関数を使用して、上記の相関関係を近似します。非線形相関。以下に示すように、これは単純なディープニューラルネットワークであり、一番左の絵（文字「A」）と右側は、絵を数値に変換して「知的」な演算を実行する構造であり、「脳」として理解できます。」。

コンピュータービジョン画像分類

以上がコンピュータービジョン画像分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、