「すべてを分割する」SAM モデルをオープンソース化したメタは、「ビジュアルベーシックモデル」への道をどんどん突き進んでいます。
今回、彼らは DINOv2 と呼ばれるモデルのセットをオープンソース化しました。これらのモデルは、微調整することなく、分類、セグメンテーション、画像検索、深度推定などの下流タスクに使用できる高性能の視覚表現を生成できます。
このモデル セットには次の特徴があります:
- 大量のラベル付きデータを必要とせずに自己教師ありトレーニングを使用します。
- は、ほぼすべての CV タスクのバックボーンとして使用できます。画像分類、セグメンテーション、画像検索、深度推定などの調整が必要です。
- テキストの説明に頼らずに画像から直接特徴を学習することで、モデルがローカル情報をよりよく理解できるようになります。
- 任意の画像コレクションから学習可能;
- DINOv2 の事前トレーニング済みバージョンがすでに利用可能であり、CLIP および OpenCLIP に匹敵します。タスクの範囲。
- #紙のリンク: https://arxiv.org/pdf/2304.07193.pdf #プロジェクトリンク: https://dinov2.metademolab.com/
- #論文概要
タスク固有ではない事前トレーニング済み表現の学習は、自然言語処理の標準になっています。これらの機能は「そのまま」使用でき (微調整は必要ありません)、下流のタスクではタスク固有のモデルよりも大幅に優れたパフォーマンスを発揮します。この成功は、言語モデリングやワード ベクトルなどの監視を必要としない補助目標を使用した、大量の生テキストの事前トレーニングによるものです。
NLP の分野でこのパラダイム シフトが起こると、コンピューター ビジョンでも同様の「基本」モデルが登場すると予想されます。これらのモデルは、画像レベル (例: 画像分類) またはピクセル レベル (例: セグメンテーション) のいずれのタスクでも「すぐに使える」視覚的特徴を生成する必要があります。
これらの基本モデルは、テキストガイドによる事前トレーニング、つまり、テキスト監視形式を使用して機能のトレーニングをガイドすることに重点を置くという大きな期待を持っています。この形式のテキストガイドによる事前トレーニングでは、キャプションは画像内の豊富な情報を近似するだけであり、より細かく複雑なピクセルレベルの情報はこの監視では検出できない可能性があるため、保持できる画像に関する情報が制限されます。さらに、これらの画像エンコーダは、すでに位置合わせされたテキストと画像のコーパスを必要とし、対応するテキストのような柔軟性を提供しません。つまり、生データのみから学習することができません。
テキストガイドによる事前トレーニングの代替手段は、画像のみから特徴を学習する自己教師あり学習です。これらのメソッドは概念的には言語モデリングなどのフロントエンド タスクに近く、画像およびピクセル レベルで情報をキャプチャできます。ただし、一般的な特徴を学習できる可能性があるにもかかわらず、自己教師あり学習の改善のほとんどは、洗練された小さなデータセット ImageNet1k での事前トレーニングのコンテキストで達成されています。これらの手法を ImageNet-1k を超えて拡張しようとする研究者もいますが、フィルタリングされていないデータセットに焦点を当てていたため、パフォーマンス品質が大幅に低下することがよくありました。これは、良い結果を生み出すために不可欠なデータの品質と多様性を制御できないことが原因です。
この研究では、研究者たちは、大量の洗練されたデータで事前トレーニングされた場合に、一般的な視覚的特徴を学習する自己教師あり学習が可能かどうかを調査します。彼らは、iBOT など、画像およびパッチ レベルで特徴を学習する既存の自己教師あり識別手法を再考し、大規模なデータセットの下で設計の選択の一部を再検討しています。私たちの技術貢献のほとんどは、モデルとデータのサイズをスケーリングする際の識別的自己教師あり学習を安定させ、加速するように調整されています。これらの改善により、同様の自己教師あり識別法に比べてメソッドが約 2 倍高速になり、必要なメモリが 1/3 減り、より長いトレーニングとより大きなバッチ サイズを活用できるようになりました。
事前トレーニング データに関しては、フィルタリングされていない画像の大規模なコレクションからデータセットをフィルタリングして再バランスするための自動パイプラインを構築しました。これは、NLP で使用されるパイプラインからインスピレーションを得たもので、外部メタデータの代わりにデータの類似性が使用され、手動のアノテーションは必要ありません。画像を処理する際の主な困難は、概念のバランスを再調整し、一部の主要なモードでの過剰適合を回避することです。今回の研究では、単純なクラスタリング手法がこの問題をうまく解決でき、研究者らは手法を検証するために 1 億 4,200 万枚の画像からなる小さいながらも多様なコーパスを収集しました。
最後に、研究者らは、さまざまなビジュアル トランスフォーマー (ViT) アーキテクチャを使用してデータに基づいてトレーニングされた、DINOv2 と呼ばれるさまざまな事前トレーニング済みビジョン モデルを提供します。彼らは、あらゆるデータに対して DINOv2 を再トレーニングするためのすべてのモデルとコードをリリースしました。図 2 に示すように、拡張した場合、画像およびピクセル レベルでさまざまなコンピューター ビジョン ベンチマークで DINOv2 の品質を検証しました。私たちは、自己教師あり事前トレーニングだけでも、公開されている最良の弱教師ありモデルに匹敵する、転送可能な凍結特徴を学習するのに適した候補であると結論付けています。
データ処理
研究者らは、複数の洗練されたデータセット (1 億 4,200 万個のデータセット) の画像に近い、フィルターされていない大量のデータから画像を取得することで、洗練された LVD を組み立てました。彼らは論文の中で、厳選/フィルタリングされていないデータ ソース、画像の重複排除手順、取得システムなど、データ パイプラインの主要コンポーネントについて説明しています。図 3 に示すように、パイプライン全体はメタデータやテキストを必要とせず、画像を直接処理します。モデル方法論の詳細については、付録 A を参照してください。
#図 3: データ処理パイプラインの概要。リファインされたデータ ソースとリファインされていないデータ ソースからの画像は、最初にエンベディングにマッピングされます。未精製のイメージは、標準イメージと照合される前に重複排除されます。結果として得られる組み合わせは、自己監視型検索システムを通じて初期データセットをさらに充実させます。
自己教師あり識別型事前トレーニング研究者らは、自己教師あり識別型手法を通じて自分の特徴を学習しました。 SwAV を中心とした DINO 損失と iBOT 損失の組み合わせ。また、特徴を伝播するための正則化機能と短い高解像度トレーニング フェーズも追加されました。
効率的な実装彼らは、大規模なモデルをトレーニングするためにいくつかの改善を検討しました。モデルは PyTorch 2.0 を使用して A100 GPU でトレーニングされており、コードは特徴抽出のために事前トレーニングされたモデルとともに使用することもできます。モデルの詳細は付録表 17 に記載されています。同じハードウェア上で、DINOv2 コードはメモリの 1/3 のみを使用し、iBOT 実装よりも 2 倍高速に実行されます。
ImageNet 分類
##その他の画像およびビデオ分類ベンチマーク
#高密度認識タスク
定性的結果
以上がMeta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 中国語版
中国語版、とても使いやすい

ホットトピック









