Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます-AI-php.cn

ホームページ

テクノロジー周辺機器

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 07, 2023 pm 03:49 PM

ビジョンタスク

「すべてを分割する」SAM モデルをオープンソース化したメタは、「ビジュアルベーシックモデル」への道をどんどん突き進んでいます。

今回、彼らは DINOv2 と呼ばれるモデルのセットをオープンソース化しました。これらのモデルは、微調整することなく、分類、セグメンテーション、画像検索、深度推定などの下流タスクに使用できる高性能の視覚表現を生成できます。

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

このモデルセットには次の特徴があります:

大量のラベル付きデータを必要とせずに自己教師ありトレーニングを使用します。
は、ほぼすべての CV タスクのバックボーンとして使用できます。画像分類、セグメンテーション、画像検索、深度推定などの調整が必要です。
テキストの説明に頼らずに画像から直接特徴を学習することで、モデルがローカル情報をよりよく理解できるようになります。
任意の画像コレクションから学習可能;
DINOv2 の事前トレーニング済みバージョンがすでに利用可能であり、CLIP および OpenCLIP に匹敵します。タスクの範囲。

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

#紙のリンク: https://arxiv.org/pdf/2304.07193.pdf
#論文概要

タスク固有ではない事前トレーニング済み表現の学習は、自然言語処理の標準になっています。これらの機能は「そのまま」使用でき (微調整は必要ありません)、下流のタスクではタスク固有のモデルよりも大幅に優れたパフォーマンスを発揮します。この成功は、言語モデリングやワードベクトルなどの監視を必要としない補助目標を使用した、大量の生テキストの事前トレーニングによるものです。

NLP の分野でこのパラダイムシフトが起こると、コンピュータービジョンでも同様の「基本」モデルが登場すると予想されます。これらのモデルは、画像レベル (例: 画像分類) またはピクセルレベル (例: セグメンテーション) のいずれのタスクでも「すぐに使える」視覚的特徴を生成する必要があります。

これらの基本モデルは、テキストガイドによる事前トレーニング、つまり、テキスト監視形式を使用して機能のトレーニングをガイドすることに重点を置くという大きな期待を持っています。この形式のテキストガイドによる事前トレーニングでは、キャプションは画像内の豊富な情報を近似するだけであり、より細かく複雑なピクセルレベルの情報はこの監視では検出できない可能性があるため、保持できる画像に関する情報が制限されます。さらに、これらの画像エンコーダは、すでに位置合わせされたテキストと画像のコーパスを必要とし、対応するテキストのような柔軟性を提供しません。つまり、生データのみから学習することができません。

テキストガイドによる事前トレーニングの代替手段は、画像のみから特徴を学習する自己教師あり学習です。これらのメソッドは概念的には言語モデリングなどのフロントエンドタスクに近く、画像およびピクセルレベルで情報をキャプチャできます。ただし、一般的な特徴を学習できる可能性があるにもかかわらず、自己教師あり学習の改善のほとんどは、洗練された小さなデータセット ImageNet1k での事前トレーニングのコンテキストで達成されています。これらの手法を ImageNet-1k を超えて拡張しようとする研究者もいますが、フィルタリングされていないデータセットに焦点を当てていたため、パフォーマンス品質が大幅に低下することがよくありました。これは、良い結果を生み出すために不可欠なデータの品質と多様性を制御できないことが原因です。

この研究では、研究者たちは、大量の洗練されたデータで事前トレーニングされた場合に、一般的な視覚的特徴を学習する自己教師あり学習が可能かどうかを調査します。彼らは、iBOT など、画像およびパッチレベルで特徴を学習する既存の自己教師あり識別手法を再考し、大規模なデータセットの下で設計の選択の一部を再検討しています。私たちの技術貢献のほとんどは、モデルとデータのサイズをスケーリングする際の識別的自己教師あり学習を安定させ、加速するように調整されています。これらの改善により、同様の自己教師あり識別法に比べてメソッドが約 2 倍高速になり、必要なメモリが 1/3 減り、より長いトレーニングとより大きなバッチサイズを活用できるようになりました。

事前トレーニングデータに関しては、フィルタリングされていない画像の大規模なコレクションからデータセットをフィルタリングして再バランスするための自動パイプラインを構築しました。これは、NLP で使用されるパイプラインからインスピレーションを得たもので、外部メタデータの代わりにデータの類似性が使用され、手動のアノテーションは必要ありません。画像を処理する際の主な困難は、概念のバランスを再調整し、一部の主要なモードでの過剰適合を回避することです。今回の研究では、単純なクラスタリング手法がこの問題をうまく解決でき、研究者らは手法を検証するために 1 億 4,200 万枚の画像からなる小さいながらも多様なコーパスを収集しました。

最後に、研究者らは、さまざまなビジュアルトランスフォーマー (ViT) アーキテクチャを使用してデータに基づいてトレーニングされた、DINOv2 と呼ばれるさまざまな事前トレーニング済みビジョンモデルを提供します。彼らは、あらゆるデータに対して DINOv2 を再トレーニングするためのすべてのモデルとコードをリリースしました。図 2 に示すように、拡張した場合、画像およびピクセルレベルでさまざまなコンピュータービジョンベンチマークで DINOv2 の品質を検証しました。私たちは、自己教師あり事前トレーニングだけでも、公開されている最良の弱教師ありモデルに匹敵する、転送可能な凍結特徴を学習するのに適した候補であると結論付けています。

データ処理

研究者らは、複数の洗練されたデータセット (1 億 4,200 万個のデータセット) の画像に近い、フィルターされていない大量のデータから画像を取得することで、洗練された LVD を組み立てました。彼らは論文の中で、厳選/フィルタリングされていないデータソース、画像の重複排除手順、取得システムなど、データパイプラインの主要コンポーネントについて説明しています。図 3 に示すように、パイプライン全体はメタデータやテキストを必要とせず、画像を直接処理します。モデル方法論の詳細については、付録 A を参照してください。

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

#図 3: データ処理パイプラインの概要。リファインされたデータソースとリファインされていないデータソースからの画像は、最初にエンベディングにマッピングされます。未精製のイメージは、標準イメージと照合される前に重複排除されます。結果として得られる組み合わせは、自己監視型検索システムを通じて初期データセットをさらに充実させます。

自己教師あり識別型事前トレーニング

研究者らは、自己教師あり識別型手法を通じて自分の特徴を学習しました。 SwAV を中心とした DINO 損失と iBOT 損失の組み合わせ。また、特徴を伝播するための正則化機能と短い高解像度トレーニングフェーズも追加されました。

効率的な実装

彼らは、大規模なモデルをトレーニングするためにいくつかの改善を検討しました。モデルは PyTorch 2.0 を使用して A100 GPU でトレーニングされており、コードは特徴抽出のために事前トレーニングされたモデルとともに使用することもできます。モデルの詳細は付録表 17 に記載されています。同じハードウェア上で、DINOv2 コードはメモリの 1/3 のみを使用し、iBOT 実装よりも 2 倍高速に実行されます。

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

#実験結果

このセクションでは、研究者は多くの画像理解における新しいモデルを紹介します。タスクの経験的評価。彼らは、カテゴリおよびインスタンスレベルの認識、セマンティックセグメンテーション、単眼奥行き予測、およびアクション認識を含む、グローバルおよびローカルの画像表現を評価しました。

ImageNet 分類

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

##その他の画像およびビデオ分類ベンチマーク

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

インスタンスの識別

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます #高密度認識タスク

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます定性的結果

Meta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちます

以上がMeta が多目的大規模モデルのオープンソースをリリースし、視覚的な統合に一歩近づくのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。