ホームページ >テクノロジー周辺機器 >AI >コンピュータビジョンテクノロジーは大きな変革を迎えようとしています

コンピュータビジョンテクノロジーは大きな変革を迎えようとしています

WBOY転載: 2023-05-05 17:28:071117ブラウズ

コンピュータビジョンは再び生まれ変わるのでしょうか?

ピッツバーグ大学の眼科教授であり、CMUロボット工学研究所の非常勤教授であるリヤド・ベノスマン氏はそう考えています。イベントベースビジョンテクノロジーの創始者の 1 人であるベノスマン氏は、ニューロモーフィックビジョン (イベントベースカメラに基づくコンピュータービジョン) がコンピュータービジョンの次の方向になると期待しています。

「コンピュータービジョンは、何度も何度も再発明されてきました」とベノスマン氏は語った。「私はそれが再発明されるのを少なくとも 2 回見てきました。」

Benosman 氏は、1990 年代の写真測量を少々含む画像処理から幾何学ベースの手法への移行、そして今日の機械学習の急速な進歩を挙げました。こうした変化にもかかわらず、現代のコンピュータービジョンテクノロジーは依然として主にイメージセンサー、つまり人間の目で見るのと同様の画像を生成するカメラに基づいています。

ベノスマン氏によると、画像センシングのパラダイムは、役に立たなくなるまで代替技術の革新を妨げるでしょう。高性能プロセッサ (GPU など) の開発により、代替ソリューションを見つける必要性が遅れ、この影響が長期化します。

「なぜコンピュータービジョンに画像を使用するのでしょうか? それは 100 万ドルの疑問です」と彼は言いました。「画像を使用する理由はありません。それは単に歴史的な勢いがあるからです。カメラが存在する前から、画像には勢いがありました。」画像カメラは 1500 年代から存在しており、アーティストは部屋サイズのデバイスを使用して人物や風景の画像を追跡していました。部屋の外からキャンバスに。長年にわたって、絵画は画像を記録するためにフィルムに置き換えられました。デジタル写真などの技術革新により、最終的にイメージカメラが現代のコンピュータビジョンテクノロジの基礎となることが容易になりました。

しかし、ベノスマン氏は、画像カメラをベースにしたコンピュータービジョンテクノロジーは非常に非効率的であると考えています。彼の例えは、中世の城の防御システムです。壁の周りに配置された衛兵が、近づいてくる敵を探し回っていました。太鼓奏者は着実に鼓動を打ち、鼓動するたびに警備員がそれぞれ見たものを叫びました。喧騒のさなかに、遠くの森の端で敵を発見した警備員の声を耳にするのは、どれほど簡単なことだろうか。

ドラムビートに相当する 21 世紀のハードウェアは電子クロック信号であり、ガードはピクセルです。大量のデータが作成され、クロックサイクルごとにチェックする必要があるため、大量の冗長情報が発生し、多くの不要な計算が必要になります。

「人々は非常に多くのエネルギーを消費しており、自分たちを守るためにキャッスルのコンピューティング能力全体を消費しています」とベノスマン氏は語った。興味深い出来事が発見された場合 (このたとえでは敵に相当します)、「役に立たない情報を収集するために動き回らなければなりません。どこでも人々が叫び声を上げているため、帯域幅が大量にあります。...次に、複雑な城があると想像してください。これらすべてが含まれています。」人々は皆、話を聞いてもらう必要があります。」

ニューロモーフィックビジョンの登場です。基本的なアイデアは、シーン全体を継続的に分析するのではなく、シーンのダイナミクスの変化を検出するという生物学的システムの仕組みからインスピレーションを得ています。城に例えると、これは、興味深いものを見つけるまで警備員を静かにし、その後、警報を発するために彼らの位置を大声で知らせることを意味します。電子形式では、これは、個々のピクセルに関連性のあるものを認識するかどうかを判断させることを意味します。

「ピクセルは、どのようなメッセージを送信するかを自分で決めることができます」とベノスマン氏は言う。

「システム情報を取得する代わりに、意味のある情報、つまり機能を探すことができます。それが違いを生むのです。」

Prophesee と DVS センサーの評価ソニーとの共同開発キット。 Benosman は Prophesee の共同創設者です。

コンピュータビジョンテクノロジーは大きな変革を迎えようとしていますこのイベントベースのアプローチは、固定周波数のシステム取得と比較して、電力を大幅に節約し、待ち時間を短縮できます。

「もっと適応的なものが必要です。それが相対的な変化[イベントベースの視覚]によって与えられるものです。適応的な取得頻度です。」と彼は言いました。「振幅の変化を見るとき、何かが非常に速く動いている場合、多くのサンプルを取得することになります。何かが変化していない場合、取得するサンプルはほぼゼロになるため、次の条件に基づいて取得頻度を調整します。

ベノスマンは 2000 年にニューロモーフィックビジョンの分野に参入し、画像が正しい方法ではないため、高度なコンピュータービジョンは決して機能しないと確信しました。。

「最大の変化は、グレースケールや画像なしでビジョンを実現できると言うことです。これは 2000 年代後半には異端でした。完全に異端でした。」と彼は言いました。

ベノスマンが提案した技術 (今日のイベントベースセンシングの基礎) は非常に異なっていたため、当時最も重要な IEEE コンピュータービジョンジャーナルに投稿された論文は審査なしで拒否されました。実際、この技術が勢いを増し始めたのは、2008 年にダイナミックビジョンセンサー (DVS) が開発されてからです。

神経科学のインスピレーション

ニューロモーフィックテクノロジーは、究極のコンピューターである脳とそのニューロン、または計算要素を含む生物学的システムからインスピレーションを得たテクノロジーです。問題は、誰もニューロンがどのように機能するかを完全に理解していないことです。ニューロンがスパイクと呼ばれる入ってくる電気信号に反応することはわかっていますが、研究者らは最近まで、ニューロンはかなり性急であると説明し、重要なのはスパイクの数だけであると考えていました。この仮説は何十年もの間持続していましたが、最近の研究により、これらのスパイクのタイミングが絶対に重要であり、脳は情報をエンコードするためにこれらのスパイクで遅延を生み出すように構造化されていることが証明されました。

今日のスパイクニューラルネットワークは、脳内で見られるスパイクをシミュレートし、実際のもの (通常はスパイクのバイナリ表現) の簡略化されたバージョンです。「1を受け取り、起き、計算し、眠ります」とベノスマン氏は説明した。現実はさらに複雑です。スパイクが到着すると、ニューロンは時間の経過とともにスパイクの値の統合を開始します。ニューロンはリークも行うため、結果は動的になります。さらに、50 の異なる統合プロファイルを持つ約 50 の異なるタイプのニューロンがあります。

現在の電子バージョンには、統合された動的パス、ニューロン間の接続、およびさまざまな重みと遅延が不足しています。「問題は、機能する製品を作るために、複雑さをすべて[模倣]することはできないということです。私たちはそれを理解していないからです」と彼は言う。「脳に関する優れた理論があれば、私たちはそれを解決できるでしょう。問題は、私たちがそれを知らないということです。」

ベンソマンは、皮質計算の背後にある数学を理解することに特化したユニークな研究室を運営しており、次のことを目指しています。新しい数学モデルを作成してシリコンデバイスに複製する前に。これには、実際の網膜からのスパイクの直接モニタリングが含まれます。

現在、ベンソマンは生物学的ニューロンを忠実に複製することに反対し、このアプローチは時代遅れであると呼んでいます。

「シリコン内でニューロンを複製するというアイデアは、人々がトランジスタを見て、本物のニューロンに似たメカニズムを見たために生まれました。そのため、最初はその背後にいくつかの考えがありました。」と彼は言いました。「私たちには細胞はありません。私たちにはシリコンがあります。コンピューティング基板を適応させる必要があります。その逆ではありません...私が何をコンピューティングしているのかが分かっていて、チップを持っているなら、この方程式を最適化してそれを実行することができます」最低のコスト、最低の消費電力、最低のレイテンシで実行します。」

処理能力

ニューロンの正確なレプリカは必要ないという認識と、DVS カメラの開発は、今日のビジョンシステムの原動力です。システムはすでに市販されていますが、完全に人間のような視覚を商業的に使用できるようになるには進歩が必要です。

ベノスマン氏は、フォトダイオード自体を囲むコンポーネントによってフィルファクター自体が大幅に低下したため、オリジナルの DVS カメラは「大きくて厚いピクセル」を持っていたと述べました。これらのカメラの開発への投資により技術は加速しましたが、ベノスマン氏は、今日のインシデントカメラは 2000 年に開発されたオリジナルの研究機器を単に改良したものであることを明らかにしました。 Sony、Samsung、Omnivision の最先端の DVS カメラは、3D スタッキングなどの高度なテクノロジーを組み込んでノイズを低減する小さなピクセルを備えています。ベノスマン氏の懸念は、現在使用されているセンサーの種類がうまく拡張できるかどうかです。

「問題は、ピクセル数を増やすと、それでも非常に高速であるため、大量のデータを取得できることです」と彼は言いました。「おそらくリアルタイムで処理することはできるでしょうが、ピクセルが多すぎると相対的な変化が大きくなりすぎてしまいます。その可能性を見出しているにもかかわらず、それをサポートする適切なプロセッサを持っていないため、今では誰もが命を落としています。」

コンピュータビジョンテクノロジーは大きな変革を迎えようとしています

この Prophesee 顧客アプリケーション例は、画像カメラ (各ボックスの左上隅) と DVS センサー出力の違いを示しています。

汎用ニューロモーフィックプロセッサは、対応する DVS カメラに比べて遅れています。業界最大手の一部 (IBM Truenorth、Intel Loihi) による取り組みは現在も継続中です。ベノスマン氏は、適切なプロセッサーと適切なセンサーは無敵の組み合わせになると述べた。

「[今日の DVS] センサーは非常に高速で、超低帯域幅、高ダイナミックレンジを備えているため、屋内と屋外を確認できます」とベノスマン氏は述べています。「これは未来です。それは軌道に乗るのでしょうか? 絶対にそうです。」「そこにプロセッサを搭載してフルスタックを提供できる人が勝つでしょう。なぜなら、それは無敵だからです。」と彼は付け加えた。

以上がコンピュータビジョンテクノロジーは大きな変革を迎えようとしていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

栈堆事件传感器

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：時系列予測のための5つのディープラーニングモデルの比較まとめ次の記事：時系列予測のための5つのディープラーニングモデルの比較まとめ

続きを見る