検索
ホームページテクノロジー周辺機器AI画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

画像の取得で問題が発生したことがありますか?

大量の画像の中から必要な画像を正確に見つけるのが難しいか、テキストベースの検索では不十分です。この問題に関して、Microsoft Research Asia と Microsoft Cloud Computing and Artificial Intelligence Division の研究者は、軽量ビジュアル モデルに関する詳細な研究を実施し、ビジュアル Transformer を実現するためのビジュアル事前トレーニング モデルの一連の設計および圧縮方法を提案しました。 。

現在、この方法とモデルは Microsoft の Bing 検索エンジンに適用され、正確かつ高速な推論と数百億枚の画像の取得が実現しています。この記事では、軽量ビジュアル事前トレーニング モデルの開発、主要なテクノロジ、アプリケーション、可能性、および将来の機会と課題について詳しく説明します。関連技術の開発を共同で推進します。

最近、Transformer ベースのビジュアル事前トレーニング モデルは、多くのコンピューター ビジョン タスクで優れたパフォーマンスを達成し、広く注目を集めています。ただし、ビジュアル Transformer 事前トレーニング モデルには通常、パラメータが大きく複雑性が高いため、実際のアプリケーション、特にリソースに制約のあるデバイスやリアルタイム要件の高いシナリオでの展開と使用が制限されます。したがって、大規模なビジュアル事前トレーニング モデルの「軽量化」に関する研究が、学界と産業界で新たなホットなトピックとなっています。

これに関して、Microsoft Research Asia と Microsoft クラウド コンピューティングおよび人工知能部門の研究者は、大規模なビジュアル モデルの構造設計とトレーニング推論について徹底的な調査を実施しました。大規模モデルの軽量、リアルタイム、クラウド展開も革新的に適用されています。この記事では、軽量ビジュアル事前トレーニング モデルの開発から開始し、モデルの軽量化研究における主要なテクノロジー、および実際の製品における軽量ビジュアル Transformer モデルの応用と可能性を探り、最後に、将来の開発機会と展望を展望します。軽量ビジュアルモデルへの挑戦。

大規模なビジュアルモデルは際限なく出現しますが、軽量の事前トレーニング済みモデルにはあま​​り興味がありません

近年、ディープラーニングが使用されていますImageNet 画像分類タスクにおける進歩は主に、ビジュアル モデルの容量の大幅な拡張によるものです。図 1 に示すように、わずか数年で、ビジュアル事前トレーニング モデルの容量は、4,450 万個のパラメーターを備えた ResNet-101 モデルから、150 億個のパラメーターを備えた V-MoE モデルまで、300 倍以上に拡張されました。 -スケールのビジュアル事前トレーニング モデル トレーニング モデルは、画像の理解やビジュアル コンテンツの生成などのタスクにおいて大きな進歩を遂げました。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

#図 1: ビジュアル事前トレーニング モデルのパラメーターの変化傾向グラフ

Microsoft かどうか30 億パラメータの Swin-V2 モデルは、Google がリリースした 18 億パラメータの ViT-G/14 モデルのままです。大規模なビジュアル モデルは、多くのタスク、特にその強力な小さなサンプル (数ショット) および一般化で優れたパフォーマンスを実証しています。ゼロショットの能力は、一般的な知能を達成するために非常に重要です。

ただし、実際の多くのシナリオでは、ストレージとコンピューティング リソースの制限により、大規模なモデルを直接デプロイすることが困難であるか、リアルタイムのニーズを満たすことができません。したがって、軽量の視覚事前トレーニング モデルに関する研究はますます重要になっており、実用化する価値が非常に高くなります。現在、軽量モデルを検討する作業がいくつかありますが、これらのメソッドのほとんどは、特定のタスクと特定の構造向けに設計されています。モデルの多用途性は、設計とトレーニングのプロセスでは考慮されず、データ ドメインとタスク全体で一般化されています。

軽量ビジュアル モデルの主要テクノロジーに関する研究

軽量ビジュアル事前トレーニング モデルを実現するために、マイクロソフトの研究者は 2 つの主要テクノロジーを発見しました。 : 1) より汎用性の高い軽量モデル構造を設計するにはどうすればよいですか? 2) 軽量のビジュアル事前トレーニング モデルの容量には限界があるため、小さなモデルが大規模なデータから効果的な情報を学習できるように、効率的な事前トレーニング方法を設計するにはどうすればよいですか?これらの問題に直面して、研究者たちはたゆまぬ研究と探求を通じていくつかの初期結果を達成しました。

軽量事前学習モデルの汎用性向上の核心は、限られたリソース(パラメータの量や遅延など)の条件下でモデルの学習能力をいかに強化するかにあります。大規模データの一般的な特徴を学習することは良いことであるため、研究者は次の 3 つの観点から詳細な探索を行いました。

1. 軽量モジュール設計

軽量かつ低遅延のモジュールは、軽量モデルの重要な部分です。畳み込みニューラル ネットワークでは、代表的な軽量モジュールとして、MobileNet の Inverted Residual Block や ShuffleNet のチャネル ランダム クロスオーバー ユニット (Shuffle Unit) などがあります。 Visual Transformer 構造では、画像ブロック間の注意の計算では相対位置符号化情報が十分に考慮されていないため、研究者らはプラグアンドプレイの軽量な 2 次元画像相対位置符号化手法 iRPE を設計しました [1]。トレーニング ハイパーパラメータを変更せずにモデルのパフォーマンスを向上させます。さらに、視覚的な Transformer パラメータの冗長性の問題に対処するために、研究者は Weight Multiplexing モジュール [2] を設計しました。図 2 に示すように、この方法では、多層重みの再利用によってモデル パラメーターの冗長性が削減され、非共有線形変換が導入されてパラメーターの多様性が向上します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

#図 2: Transformer の重み多重化モジュール

2. 軽量モデルの検索

Neural Architecture Search は、モデル設計空間から、より軽量でパフォーマンスの優れたモデル構造を自動的に見つけることができます [3]。畳み込みニューラルネットワークでは、NASNetやEfficientNetなどが代表的な作品です。視覚的な Transformer 構造探索では、視覚モデルのチャネル幅、ネットワークの深さ、ヘッド数などの複数の次元に対して AutoFormer [4] と S3 [5] が次々と提案され、視覚モデルの動的スケーラブルなトレーニングと拡張性を実現しています。 . 構造検索。同じモデル精度であれば、探索によって得られた新しいモデルの方がパラメータと計算の数が少なくなります。注目に値するのは、S3 では、研究者が E-T エラー [5] と重み共有スーパーネットを使用して検索空間をガイドおよび改善し、より効率的なモデル構造を取得すると同時に、図に示すように検索空間の進化プロセスも分析したことです。 3 を示します。同時に、モデル構造検索のプロセスは、軽量モデルの設計のための効果的な設計経験とリファレンスを提供します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう#図 3: 軽量モデル検索スペースの進化プロセス

3. 視覚的な大規模モデルの圧縮知識の伝達軽量の事前トレーニング済みモデルに関するもう 1 つの問題は、モデルの容量が限られているため、大規模なデータに含まれる豊富な情報や知識を直接学習することが難しいことです。この問題を解決するために、研究者らは、大きなモデルの知識を軽量の小さなモデルに転送する高速な事前トレーニング蒸留スキームを提案しました [6]。図 4 に示すように、従来の 1 段階の知識の蒸留とは異なり、高速事前トレーニングの蒸留は 2 つの段階に分割されます: 1) 大規模モデルのトレーニング プロセスで使用されるデータ拡張情報と予測情報の圧縮と保存、2) ロードと復元大規模モデルの予測情報とデータが強化された後、大規模モデルは教師として使用され、トレーニング前の蒸留を通じて軽量のスチューデント モデルの学習とトレーニングをガイドします。この手法は、枝刈りや量子化とは異なり、重み共有に基づいて前述の重み再利用 [2] を使用し、軽量の重み変換と蒸留を導入することで、大規模な視覚的事前学習モデルを圧縮することに成功し、普遍的でより堅牢な軽量モデルを取得します。この方法では、パフォーマンスを犠牲にすることなく、元の大きなモデルを何十回も圧縮できます。

図 4: トレーニング前の知識の迅速な蒸留

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうこの一連の研究結果は、単にコンピューター ビジョン (CVPR、ICCV、ECCV、NeurIPS など) に関する主要な学術会議で多くの論文が発表されており [1-6]、Microsoft Bing との連携を通じて、軽量の事前トレーニング モデルが画像検索製品に適用されることに成功しています。 . 実際のビジネスにおける画像やビデオのコンテンツを理解する能力を向上させます。

軽量ビジュアル事前トレーニング モデルのアプリケーション

軽量のビジュアル事前トレーニング モデルは、特にリアルタイムのレンダリングとクラウド ビデオの強化、エンドツーエンドの画像テスト、ビデオなど、高いリアルタイム要件やリソース制約があるシナリオで多くの実用的な用途があります。内容理解。軽量ビジュアルモデルは、スマート小売、先端製造、その他の分野で幅広い応用の可能性を示しており、将来的にはメタバースや自動運転などの新興産業で重要な役割を果たすことになります。 Microsoft の Bing 製品での画像コンテンツ検索を例として、軽量ビジュアル モデルの実際のアプリケーションと展開を以下に示します。

現時点では、コンテンツベースの画像検索は、画像のカテゴリ属性を理解する点では比較的成熟していますが、複雑なシーンのコンテンツを理解することには依然として大きな課題があります。複雑なシーンの写真には、通常、深い被写界深度、乱雑な背景、多くの登場人物、複雑なオブジェクトの関係などの特徴があり、コンテンツの理解が大幅に困難になるため、事前トレーニング モデルの堅牢性と一般化に対してより高い要件が課せられます。

たとえば、アニメ画像の検索品質は長い間効果的に改善できませんでした。主な課題は次のとおりです。ペイントの線や色が実際のシーン画像よりも誇張されており、より多くのアクションが含まれています。とシーンがあり、スタイルの内容は漫画によって大きく異なります。図 5 ~ 7 は、それぞれ「スラムダンク」、「ピカチュウ」、「キャプテン」の 3 つの異なる漫画のキャラクターと動作を示しており、漫画のスタイルと内容は大きく異なります。漫画の絵の内容を効果的に理解する方法により、視覚的な事前トレーニング モデルに対するより高い要件が提示されます。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

図 5: Microsoft Bing 検索エンジンでは、スラム ダンク マスターのアクションには、ダンク、ドリブル、スティール、シュートなどが含まれます。 .

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

図 6: Microsoft Bing 検索エンジンで、リンゴを食べる、スイカを食べる、アイスクリームを食べるなどのピカチュウの行動を理解します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

##図 7: Microsoft の Bing 検索エンジンでの若いフットボール選手のシュート アクションの拡大図

上記の軽量の視覚的一般モデルと高速な事前トレーニング蒸留アルゴリズムは、Microsoft の Bing 検索エンジンでうまく使用されています。 Microsoft Research Asia が提供する視覚言語マルチモーダル事前トレーニング モデルの助けを借りて、Microsoft の Bing 画像検索機能はコミック コンテンツの理解を強化し、ユーザーのニーズにより適合する画像コンテンツを返すことができます。

同時に、Microsoft Bing 検索エンジンの巨大なインデックス ライブラリには、検索効率に対する非常に高い要件があります。 Microsoft Research Asia が提供する高速事前トレーニング蒸留メソッドは、事前トレーニングされた大規模モデルのインデックス作成機能を軽量モデルに効果的に移行し、既存のモデルの認識精度を 14% 向上させ、モデルの計算を大幅に最適化します。 、数百億枚の画像に対して高速な推論を実現します。

将来の機会と課題

モデルの軽量化は、人工知能の将来のアプリケーションの中核です。ビジョン テクノロジー、アルゴリズム、計算能力、データが向上し続けるにつれて、モデルの複雑さは劇的に増加し、ニューラル ネットワーク計算のエネルギー消費はますます高価になってきています。軽量ビジュアル モデルの高い計算効率と低い導入コストとアプリケーション コストは、将来のより実際の製品において大きな利点となる可能性があります。さらに、ローカライズされた軽量の事前トレーニング済みビジュアル モデルにより、より多くのサービスをサポートしながら、ユーザー データとプライバシーをより適切に保護できます。ユーザーのデータをデバイスから外部に出す必要がなくなり、モデルサービスなどの機能をリモートでアップグレードできるようになります。

もちろん、研究者は、軽量の事前トレーニング済みビジュアル モデルが直面する課題も認識しています。一方で、モデル構造設計の観点からは、数の制約の下でモデルの最適な学習能力を達成する方法が課題です。モデルパラメータと推論遅延の問題は、学術界や産業界において常に大きな関心事となってきました。多くの効果的なモデル構造が蓄積され、普遍近似定理 (UAT) やニューラル ネットワーク構造探索 (NAS) などの分野で大きな進歩が見られましたが、既存の軽量の事前学習済み視覚モデルや視覚的な大規模視覚モデルにはまだギャップがあります。さらに最適化および改善する必要があるモデル間。一方、トレーニング方法に関しては、学界や産業界が大規模な視覚モデルに対する自己監視、画像分類、マルチモダリティなどのさまざまなトレーニング方法を提案しており、モデルの一般的な機能が大幅に向上しています。容量が限られた軽量モデルに対してより効果的なトレーニング方法を設計する方法には、さらなる研究と探索が必要です。 Microsoft Research Asia の研究者は、軽量の事前トレーニング済みビジュアル モデルの科学研究の進歩を継続的に推進し、この分野の関連テクノロジをコミュニケーションおよび探索するために、より多くのテクノロジ仲間を歓迎します。

以上が画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ベクトルストリーミング:錆を使用したメモリ効率の高いインデックスベクトルストリーミング:錆を使用したメモリ効率の高いインデックスApr 12, 2025 am 10:42 AM

導入 埋め込みのベクトルストリーミングが導入されています。これは、大規模なドキュメントの埋め込みを最適化するように設計されています。 Rustの並行性を使用して非同期チャンクと埋め込みを可能にすると、メモリの使用が減少し、

レプリットエージェントとは何ですか? |入門ガイド - 分析Vidhyaレプリットエージェントとは何ですか? |入門ガイド - 分析VidhyaApr 12, 2025 am 10:40 AM

導入 会話と同じように簡単にアプリを開発することを想像してください。セットアップする複雑な開発環境はなく、構成ファイルを調べる必要はありません。コンセプトを貴重なアプリに変換する

ラミニを使用してオープンソースLLMを微調整します。分析vidhyaラミニを使用してオープンソースLLMを微調整します。分析vidhyaApr 12, 2025 am 10:20 AM

最近、大規模な言語モデルとAIの台頭により、自然言語処理における無数の進歩が見られました。テキスト、コード、画像/ビデオ生成などのドメインのモデルは、人間のような推論とPをアーカイブしています

PythonのOpenCVとRoboflowによる性別検出-AnalyticsVidhyaPythonのOpenCVとRoboflowによる性別検出-AnalyticsVidhyaApr 12, 2025 am 10:19 AM

導入 顔の画像からの性別検出は、コンピュータービジョンの多くの魅力的なアプリケーションの1つです。このプロジェクトでは、OpenCVを対立する場所と性別分類のためにRoboflow APIを組み合わせて、

広告コンテンツのパーソナライズにおける生成AIの役割は何ですか?広告コンテンツのパーソナライズにおける生成AIの役割は何ですか?Apr 12, 2025 am 10:18 AM

導入 広告の世界は、物々交換システムの概念以来進化の下にありました。広告主は、製品を私たちの注意を引くための創造的な方法を見つけました。現在の年齢では、消費者はBRを期待しています

Openai' s o1-preview vs o1-mini:AGIへの一歩Openai' s o1-preview vs o1-mini:AGIへの一歩Apr 12, 2025 am 10:04 AM

導入 9月12日に、Openaiは「LLMSとの推論学習」というタイトルのアップデートをリリースしました。彼らは、複雑な推論タスクに取り組むために補強学習を使用して訓練されたO1モデルを導入しました。このmodを設定するもの

Openai O1でゲームを構築する方法は? - 分析VidhyaOpenai O1でゲームを構築する方法は? - 分析VidhyaApr 12, 2025 am 10:03 AM

導入 Openai O1モデルファミリは、特に科学、コーディング、問題解決において、推論と経済のパフォーマンスを大幅に進めています。 Openaiの目標は、これまでにない高度なAIとO1モデルを作成することです

顧客クエリ管理のための人気のあるLLMエージェントツール顧客クエリ管理のための人気のあるLLMエージェントツールApr 12, 2025 am 10:01 AM

導入 今日、顧客クエリ管理の世界は前例のないペースで動いており、新しいツールが毎日見出しを作っています。大規模な言語モデル(LLM)エージェントは、このコンテキストでの最新のイノベーションであり、CUを後押しします

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません