検索
ホームページテクノロジー周辺機器AIImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ImageNet は長い間その歴史的使命を終えてきましたが、依然としてコンピューター ビジョンの分野における重要なデータ セットです。

2016 年、ImageNet でトレーニングされた分類モデルの sota 精度率はまだ 80% 未満でしたが、今日に至るまで、大規模な事前トレーニングされたモデルに基づいたゼロショット一般化が行われています。それだけで 80.1% の精度を達成できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

Laion は最近、オープンソースの OpenCLIP フレームワーク # を使用して、新しい ViT-G/14 CLIP## をトレーニングしましたモデル、ImageNet データセットでは、元の OpenAI CLIP の精度はわずか 75.4% ですが、OpenCLIP は 80.1% のゼロショット精度を達成し、MS COCO では 74.9% のゼロショットを達成します。画像取得 (Recall@5)。これも 現在最も強力なオープンソース CLIP モデル です。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

LAION は、Large-scale Artificial Intelligence Open Network の略で、世界中からメンバーが集まる非営利団体です。大規模な人工知能の一般公開: 機械学習モデル、データセット、および関連コードをスケールします。彼らは、真のオープン AI、100% 非営利、100% 無料であると主張しています。

興味のある友人は、手元の CLIP モデルを更新できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

モデルアドレス: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k

各データセットにおける OpenCLIP モデルの具体的なパフォーマンスを以下の表に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました#ゼロショット機能

一般的に、コンピューター ビジョン (CV) モデルは、さまざまな環境でより優れたパフォーマンスを発揮します。タスク sota のパフォーマンスは特定の分野のトレーニング データに基づいており、他の分野やタスクに一般化することはできません。その結果、視覚的な世界の一般的な属性の理解が限定的になります。

#汎化問題は、大量のトレーニング データが不足している分野では特に重要です。

理想的には、CV モデルは、トレーニング セット内の特定のラベルに焦点を当てすぎるのではなく、画像の意味論的な内容を学習する必要があります。たとえば、犬の画像の場合、モデルは画像の中に犬がいることを理解でき、さらに背景に木があること、時間は昼間であること、犬が芝生の上にいることなども理解できる必要があります。 。

しかし、「分類トレーニング」によって得られた現在の結果は、期待とはまったく逆です。モデルは、犬の内部表現を同じ「犬ベクトル空間」に押し込み、猫を同じ「犬ベクトル空間」に押し込むことを学習します。同じ「猫ベクトル空間」では、すべての質問に対する答えは 2 値、つまり、画像をカテゴリ ラベルと位置合わせできるかどうかです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました 新しいタスクの分類モデルを再トレーニングすることも解決策ですが、トレーニング自体には多大な時間と資金が必要です。分類データセットを収集し、モデルをトレーニングするための投資。

幸いなことに、OpenAI の CLIP モデルは非常に柔軟な分類モデルであり、通常は再トレーニングすることなく新しい分類タスクに使用できます。

CLIP がゼロショットできる理由 Contrastive Language-Image Pretraining (CLIP、Contrastive Language-Image Pretraining) は、2021 年に OpenAI によってリリースされたモデルで、主に Transformer に基づいています。

CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP 内のテキスト モデルと画像モデルは両方とも、ベクトル空間で同様のテキストと画像を配置するために事前トレーニング中に最適化されます。トレーニング プロセス中、データ内の画像とテキストのペアはベクトル空間内で互いに近づけられますが、ペアに属さない画像ベクトルとテキスト ベクトルは分離されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP と一般的な分類モデルにはいくつかの違いがあります。

まず、OpenAI はインターネットからクロールされたデータを使用します。 4 億のテキストと画像のペアを含む非常に大規模なデータ セットでのトレーニングは次のとおりです:

1. CLIP トレーニングには「画像とテキストのペア」のみが必要で、特定のクラス ラベルは必要ありません。このタイプのデータは次のとおりです。今日のソーシャルメディア中心のオンライン世界にはたくさんあります。

2. 大規模なデータセットは、画像内の共通のテキスト概念を理解する CLIP の能力を意味します。

3. テキスト記述子には、カテゴリの特徴だけでなく、画像内のさまざまな特徴が含まれることが多く、これは、より包括的な画像とテキストの表現を確立できることを意味します。

上記の利点は、CLIP がゼロショットを確立する能力の重要な要素でもあります。論文の著者は、ResNet-101 モデルと ImageNet で特別にトレーニングされた CLIP モデルも比較し、それを派生した他のデータに適用しました。 ImageNet.Set からのパフォーマンスの比較を次の図に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ResNet-101 は ImageNet でトレーニングされていますが、同様のデータセットでのパフォーマンスは、同じタスクでの CLIP パフォーマンスよりも優れていることがわかります。ずっと悪いです。

ResNet モデルを他の分野に適用する場合、一般的な方法は「線形プローブ」です。つまり、ResNet モデルの最後の数層で学習された特性が線形分類器に入力され、その後、精密分類器に入力されます。特定のデータセット向けに調整されています。

CLIP 論文では、線形検出 ResNet-50 とゼロショット CLIP が比較されています。結論として、同じシナリオでは、複数のタスクにおいてゼロショット CLIP の方が ResNet よりも優れたパフォーマンスを発揮します。-50 での線形検出。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ただし、より多くのトレーニング サンプルが与えられた場合、Zero-shot は線形検出を上回るパフォーマンスを発揮しないことに注意してください。

ゼロショット分類に CLIP を使用する

上記の説明からわかるように、画像およびテキスト エンコーダーは、入力画像とテキスト入力をマップする 512 次元のベクトルを作成できます。同じベクトル空間。

CLIP をゼロショット分類に使用するということは、カテゴリ情報をテキスト文に入れることを意味します。

たとえば、画像を入力し、そのカテゴリが車、鳥、猫のいずれであるかを判断したい場合、カテゴリを表す 3 つのテキスト文字列を作成できます。

T1 は車を表します。車の写真

T2 は鳥を表します: 鳥の写真

T3 は猫を表します: 猫の写真

カテゴリの説明をテキストに入力しますエンコーダを使用すると、カテゴリを表現できるベクトルが得られます。

入力が猫の写真であると仮定し、ViT モデルを使用してエンコードし、画像ベクトルを取得した後、カテゴリ ベクトルとのコサイン距離を類似度として計算します。が最高であることは、画像のカテゴリが猫に属していることを意味します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ご覧のとおり、カテゴリ ラベルは単純な単語ではなく、テンプレート 「{ラベルの写真」に基づいています。 の形式を文に書き換えると、学習制限なしでカテゴリ予測に拡張できます。

実験では、このプロンプト テンプレートを使用すると、ImageNet の分類精度が 1.3 パーセント向上しました。ただし、プロンプト テンプレートによって常にパフォーマンスが向上するとは限りません。実際の使用では、さまざまなデータ セットに基づいてテストする必要があります。

Python 実装

CLIP を使用してゼロショット分類を行うことも非常に簡単です。作成者はデモンストレーションとして Hugging Face の frgfm/imagenette データ セットを選択しました。データ セットには 10 が含まれていますラベル. 、およびすべては整数値として保存されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP を分類に使用するには、整数値ラベルを対応するテキスト コンテンツに変換する必要があります。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#タグと写真の類似性を直接計算する前に、CLIP モデルを初期化する必要があります。これは、Hugging Face で見つかった CLIP を使用して実装できます。トランスフォーマー。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

テキスト トランスフォーマーはテキストを直接読み取ることはできませんが、トークン ID (または input_ID) と呼ばれる整数値のセットが必要です。各トークン ID は一意です。 integer はワードまたはサブワード (つまり、トークン) を表します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

変換されたテンソルをテキスト トランスフォーマに入力して、ラベルのテキスト埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

現在 CLIP であることに注意してください出力ベクトルは正規化されていないため、ドット乗算後に得られる類似度の結果は不正確です。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

次に、テスト用にデータ セット内の画像を選択し、同じ処理プロセスの後に画像ベクトルを取得できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#画像を次元 (1, 3, 224, 224) のベクトルに変換した後、それをモデルに入力して埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました次のステップでは、データ セット内の画像埋め込みと 10 個のラベル テキスト埋め込みの間のドット積の類似性を計算します。最も高いスコアを持つものが予測されたカテゴリです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#モデルは、データ セット全体でカセット プレーヤー (カセット プレーヤー) の結果を返します。再度実行すると、98.7% の精度が得られます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたゼロショット分類、マルチモーダル検索、ターゲット検出、生成に加えて、 OpenAI の Dall-E や Stable の廃止、CLIP などのモデルは、コンピューター ビジョンへの新たな扉を開きます。

以上がImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール