ホームページ >ウェブフロントエンド >jsチュートリアル >JavaScript ロボティクス: コンピューター ビジョンとオブジェクト認識に JavaScript を使用する
近年、JavaScript はロボット アプリケーションを開発するためのプログラミング言語として非常に人気が高まっています。その多用途性、使いやすさ、幅広いエコシステムにより、インタラクティブなスマート ロボットの構築に最適です。ロボット工学の最もエキサイティングな側面の 1 つは、ロボットが周囲の環境を感知して解釈できるようにするコンピューター ビジョンです。
この記事では、JavaScript を使用してコンピューター ビジョンとオブジェクト認識タスクを実装する方法を検討します。コンピューター ビジョンの背後にある理論を詳しく掘り下げ、関連する JavaScript ライブラリとフレームワークについて説明し、詳細なコード スニペットとそれに対応する出力を含む実用的な例を提供します。
コンピューター ビジョンは、コンピューターがデジタル画像やビデオから高度な理解を可能にすることに焦点を当てた研究分野です。これには、視覚データを処理し、意味のある情報を抽出し、その情報に基づいて意思決定を行うことが含まれます。コンピュータ ビジョンは、画像認識、物体検出、シーン理解などのさまざまなタスクをカバーします。ロボット工学の文脈では、コンピュータービジョンは、ロボットが周囲の環境を効果的に認識し、相互作用できるようにする上で重要な役割を果たします。
強力なライブラリとフレームワークのおかげで、JavaScript はコンピュータ ビジョンの分野で大きな進歩を遂げました。 TensorFlow.js、OpenCV.js、および Tracking.js は、開発者が高度なコンピューター ビジョン アルゴリズムを JavaScript で直接実装できるようにするよく知られた JavaScript ツールです。これらのライブラリは、画像フィルタリング、特徴抽出、オブジェクト認識などを含む幅広い機能を提供します。さらに、JavaScript はブラウザと互換性があるため、リアルタイム処理を実行し、カメラやビデオ ソースと対話できるため、ロボット工学アプリケーションのコンピューター ビジョン タスクに理想的な言語となります。
TensorFlow.js は、Google が開発したオープンソースの JavaScript ライブラリで、ブラウザーで機械学習と深層学習を可能にするように設計されています。オブジェクト認識タスクのサポートを含む、モデルのトレーニングとデプロイのための豊富なツール セットを提供します。 TensorFlow.js を使用すると、開発者は事前トレーニングされたモデルと転移学習技術を使用してオブジェクト認識を簡単に実行できます。
TensorFlow.js をオブジェクト認識に使用する方法を説明するために、さまざまな果物を識別する例を見てみましょう。最初のステップは、果物の画像のデータセットを収集し、それに応じてラベルを付けることです。このデータセットはモデルのトレーニング データとして機能します。 TensorFlow.js は転移学習をサポートしています。これには、収集されたデータセットを使用して MobileNet や ResNet などの事前トレーニング済みモデルを微調整することが含まれます。このプロセスは、モデルが特定の果物オブジェクトを認識することを学習するのに役立ちます。
モデルのトレーニングが完了したら、 tf.loadLayersModel 関数を使用してモデルを JavaScript にロードできます。次に、getUserMedia API を使用してユーザーのカメラからビデオをキャプチャし、キャンバス要素に表示します。キャンバスは、オブジェクト検出を実行するためのビューポートとして使用されます。
オブジェクト検出を実行するには、detectorObjects という関数を定義します。この機能は、ビデオ ソースからフレームを継続的にキャプチャして処理し、各フレームに存在するオブジェクトを予測します。
次のコード スニペットは、TensorFlow.js を使用したオブジェクト認識を示しています -
リーリーこのコードは、ユーザーのカメラからビデオをキャプチャし、ビデオ ソースのすべてのフレームでオブジェクト検出を継続的に実行します。各フレームに対して、コードは次の手順を実行します -
現在のビデオ フレームを Canvas 要素に描画します。
次に、 tf.browser.fromPixels を使用して、キャンバス イメージを TensorFlow.js テンソルに変換します。
ExpandDims を使用して、モデルの入力形状に一致するようにイメージ テンソルを拡張します。
拡張されたイメージ テンソルを使用してモデルの予測関数を呼び出し、予測を取得します。
array() を使用して、予測を JavaScript 配列に変換します。
予測配列内の最大値のインデックスを見つけて、最大の予測値を特定します。
事前定義されたクラスの配列 (例: ['apple'、'banana'、'orange']) は、インデックスを対応するオブジェクト タグにマップするために使用されます。
console.log('Detected:', Prediction) を使用して、検出されたオブジェクト ラベルをコンソールに記録します。
実際の出力は、ビデオ ソースに存在するオブジェクトとトレーニングされたモデルの精度によって異なります。たとえば、ビデオ ソースにリンゴが含まれている場合、コードは「検出: Apple」をコンソールに出力する可能性があります。同様に、バナナが存在する場合、出力は「検出: バナナ.
」となる可能性があります。 ###結論は###以上がJavaScript ロボティクス: コンピューター ビジョンとオブジェクト認識に JavaScript を使用するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。