ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました-AI-php.cn

ホームページ

テクノロジー周辺機器

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

王林

Apr 11, 2023 pm 11:10 PM

モデル

ImageNet は長い間その歴史的使命を終えてきましたが、依然としてコンピュータービジョンの分野における重要なデータセットです。

2016 年、ImageNet でトレーニングされた分類モデルの sota 精度率はまだ 80% 未満でしたが、今日に至るまで、大規模な事前トレーニングされたモデルに基づいたゼロショット一般化が行われています。それだけで 80.1% の精度を達成できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

Laion は最近、オープンソースの OpenCLIP フレームワーク # を使用して、新しい ViT-G/14 CLIP## をトレーニングしましたモデル、ImageNet データセットでは、元の OpenAI CLIP の精度はわずか 75.4% ですが、OpenCLIP は 80.1% のゼロショット精度を達成し、MS COCO では 74.9% のゼロショットを達成します。画像取得 (Recall@5)。これも現在最も強力なオープンソース CLIP モデルです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

LAION は、Large-scale Artificial Intelligence Open Network の略で、世界中からメンバーが集まる非営利団体です。大規模な人工知能の一般公開: 機械学習モデル、データセット、および関連コードをスケールします。彼らは、真のオープン AI、100% 非営利、100% 無料であると主張しています。

興味のある友人は、手元の CLIP モデルを更新できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

モデルアドレス: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k

各データセットにおける OpenCLIP モデルの具体的なパフォーマンスを以下の表に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました #ゼロショット機能

一般的に、コンピュータービジョン (CV) モデルは、さまざまな環境でより優れたパフォーマンスを発揮します。タスク sota のパフォーマンスは特定の分野のトレーニングデータに基づいており、他の分野やタスクに一般化することはできません。その結果、視覚的な世界の一般的な属性の理解が限定的になります。

#汎化問題は、大量のトレーニングデータが不足している分野では特に重要です。

理想的には、CV モデルは、トレーニングセット内の特定のラベルに焦点を当てすぎるのではなく、画像の意味論的な内容を学習する必要があります。たとえば、犬の画像の場合、モデルは画像の中に犬がいることを理解でき、さらに背景に木があること、時間は昼間であること、犬が芝生の上にいることなども理解できる必要があります。。

しかし、「分類トレーニング」によって得られた現在の結果は、期待とはまったく逆です。モデルは、犬の内部表現を同じ「犬ベクトル空間」に押し込み、猫を同じ「犬ベクトル空間」に押し込むことを学習します。同じ「猫ベクトル空間」では、すべての質問に対する答えは 2 値、つまり、画像をカテゴリラベルと位置合わせできるかどうかです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました新しいタスクの分類モデルを再トレーニングすることも解決策ですが、トレーニング自体には多大な時間と資金が必要です。分類データセットを収集し、モデルをトレーニングするための投資。

幸いなことに、OpenAI の CLIP モデルは非常に柔軟な分類モデルであり、通常は再トレーニングすることなく新しい分類タスクに使用できます。

CLIP がゼロショットできる理由 Contrastive Language-Image Pretraining (CLIP、Contrastive Language-Image Pretraining) は、2021 年に OpenAI によってリリースされたモデルで、主に Transformer に基づいています。

CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP 内のテキストモデルと画像モデルは両方とも、ベクトル空間で同様のテキストと画像を配置するために事前トレーニング中に最適化されます。トレーニングプロセス中、データ内の画像とテキストのペアはベクトル空間内で互いに近づけられますが、ペアに属さない画像ベクトルとテキストベクトルは分離されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP と一般的な分類モデルにはいくつかの違いがあります。

まず、OpenAI はインターネットからクロールされたデータを使用します。 4 億のテキストと画像のペアを含む非常に大規模なデータセットでのトレーニングは次のとおりです:

1. CLIP トレーニングには「画像とテキストのペア」のみが必要で、特定のクラスラベルは必要ありません。このタイプのデータは次のとおりです。今日のソーシャルメディア中心のオンライン世界にはたくさんあります。

2. 大規模なデータセットは、画像内の共通のテキスト概念を理解する CLIP の能力を意味します。

3. テキスト記述子には、カテゴリの特徴だけでなく、画像内のさまざまな特徴が含まれることが多く、これは、より包括的な画像とテキストの表現を確立できることを意味します。

上記の利点は、CLIP がゼロショットを確立する能力の重要な要素でもあります。論文の著者は、ResNet-101 モデルと ImageNet で特別にトレーニングされた CLIP モデルも比較し、それを派生した他のデータに適用しました。 ImageNet.Set からのパフォーマンスの比較を次の図に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ResNet-101 は ImageNet でトレーニングされていますが、同様のデータセットでのパフォーマンスは、同じタスクでの CLIP パフォーマンスよりも優れていることがわかります。ずっと悪いです。

ResNet モデルを他の分野に適用する場合、一般的な方法は「線形プローブ」です。つまり、ResNet モデルの最後の数層で学習された特性が線形分類器に入力され、その後、精密分類器に入力されます。特定のデータセット向けに調整されています。

CLIP 論文では、線形検出 ResNet-50 とゼロショット CLIP が比較されています。結論として、同じシナリオでは、複数のタスクにおいてゼロショット CLIP の方が ResNet よりも優れたパフォーマンスを発揮します。-50 での線形検出。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ただし、より多くのトレーニングサンプルが与えられた場合、Zero-shot は線形検出を上回るパフォーマンスを発揮しないことに注意してください。

ゼロショット分類に CLIP を使用する

上記の説明からわかるように、画像およびテキストエンコーダーは、入力画像とテキスト入力をマップする 512 次元のベクトルを作成できます。同じベクトル空間。

CLIP をゼロショット分類に使用するということは、カテゴリ情報をテキスト文に入れることを意味します。

たとえば、画像を入力し、そのカテゴリが車、鳥、猫のいずれであるかを判断したい場合、カテゴリを表す 3 つのテキスト文字列を作成できます。

T1 は車を表します。車の写真

T2 は鳥を表します: 鳥の写真

T3 は猫を表します: 猫の写真

カテゴリの説明をテキストに入力しますエンコーダを使用すると、カテゴリを表現できるベクトルが得られます。

入力が猫の写真であると仮定し、ViT モデルを使用してエンコードし、画像ベクトルを取得した後、カテゴリベクトルとのコサイン距離を類似度として計算します。が最高であることは、画像のカテゴリが猫に属していることを意味します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ご覧のとおり、カテゴリラベルは単純な単語ではなく、テンプレート「{ラベルの写真」に基づいています。の形式を文に書き換えると、学習制限なしでカテゴリ予測に拡張できます。

実験では、このプロンプトテンプレートを使用すると、ImageNet の分類精度が 1.3 パーセント向上しました。ただし、プロンプトテンプレートによって常にパフォーマンスが向上するとは限りません。実際の使用では、さまざまなデータセットに基づいてテストする必要があります。

Python 実装

CLIP を使用してゼロショット分類を行うことも非常に簡単です。作成者はデモンストレーションとして Hugging Face の frgfm/imagenette データセットを選択しました。データセットには 10 が含まれていますラベル. 、およびすべては整数値として保存されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP を分類に使用するには、整数値ラベルを対応するテキストコンテンツに変換する必要があります。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#タグと写真の類似性を直接計算する前に、CLIP モデルを初期化する必要があります。これは、Hugging Face で見つかった CLIP を使用して実装できます。トランスフォーマー。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

テキストトランスフォーマーはテキストを直接読み取ることはできませんが、トークン ID (または input_ID) と呼ばれる整数値のセットが必要です。各トークン ID は一意です。 integer はワードまたはサブワード (つまり、トークン) を表します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

変換されたテンソルをテキストトランスフォーマに入力して、ラベルのテキスト埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

現在 CLIP であることに注意してください出力ベクトルは正規化されていないため、ドット乗算後に得られる類似度の結果は不正確です。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

次に、テスト用にデータセット内の画像を選択し、同じ処理プロセスの後に画像ベクトルを取得できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#画像を次元 (1, 3, 224, 224) のベクトルに変換した後、それをモデルに入力して埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました次のステップでは、データセット内の画像埋め込みと 10 個のラベルテキスト埋め込みの間のドット積の類似性を計算します。最も高いスコアを持つものが予測されたカテゴリです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#モデルは、データセット全体でカセットプレーヤー (カセットプレーヤー) の結果を返します。再度実行すると、98.7% の精度が得られます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたゼロショット分類、マルチモーダル検索、ターゲット検出、生成に加えて、 OpenAI の Dall-E や Stable の廃止、CLIP などのモデルは、コンピュータービジョンへの新たな扉を開きます。

以上がImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。