ImageNet は長い間その歴史的使命を終えてきましたが、依然としてコンピューター ビジョンの分野における重要なデータ セットです。
2016 年、ImageNet でトレーニングされた分類モデルの sota 精度率はまだ 80% 未満でしたが、今日に至るまで、大規模な事前トレーニングされたモデルに基づいたゼロショット一般化が行われています。それだけで 80.1% の精度を達成できます。
Laion は最近、オープンソースの OpenCLIP フレームワーク # を使用して、新しい ViT-G/14 CLIP## をトレーニングしましたモデル、ImageNet データセットでは、元の OpenAI CLIP の精度はわずか 75.4% ですが、OpenCLIP は 80.1% のゼロショット精度を達成し、MS COCO では 74.9% のゼロショットを達成します。画像取得 (Recall@5)。これも 現在最も強力なオープンソース CLIP モデル です。
興味のある友人は、手元の CLIP モデルを更新できます。
モデルアドレス: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k
各データセットにおける OpenCLIP モデルの具体的なパフォーマンスを以下の表に示します。
#ゼロショット機能
一般的に、コンピューター ビジョン (CV) モデルは、さまざまな環境でより優れたパフォーマンスを発揮します。タスク sota のパフォーマンスは特定の分野のトレーニング データに基づいており、他の分野やタスクに一般化することはできません。その結果、視覚的な世界の一般的な属性の理解が限定的になります。
#汎化問題は、大量のトレーニング データが不足している分野では特に重要です。
理想的には、CV モデルは、トレーニング セット内の特定のラベルに焦点を当てすぎるのではなく、画像の意味論的な内容を学習する必要があります。たとえば、犬の画像の場合、モデルは画像の中に犬がいることを理解でき、さらに背景に木があること、時間は昼間であること、犬が芝生の上にいることなども理解できる必要があります。 。
しかし、「分類トレーニング」によって得られた現在の結果は、期待とはまったく逆です。モデルは、犬の内部表現を同じ「犬ベクトル空間」に押し込み、猫を同じ「犬ベクトル空間」に押し込むことを学習します。同じ「猫ベクトル空間」では、すべての質問に対する答えは 2 値、つまり、画像をカテゴリ ラベルと位置合わせできるかどうかです。
新しいタスクの分類モデルを再トレーニングすることも解決策ですが、トレーニング自体には多大な時間と資金が必要です。分類データセットを収集し、モデルをトレーニングするための投資。
幸いなことに、OpenAI の CLIP モデルは非常に柔軟な分類モデルであり、通常は再トレーニングすることなく新しい分類タスクに使用できます。
CLIP がゼロショットできる理由 Contrastive Language-Image Pretraining (CLIP、Contrastive Language-Image Pretraining) は、2021 年に OpenAI によってリリースされたモデルで、主に Transformer に基づいています。
CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。
CLIP 内のテキスト モデルと画像モデルは両方とも、ベクトル空間で同様のテキストと画像を配置するために事前トレーニング中に最適化されます。トレーニング プロセス中、データ内の画像とテキストのペアはベクトル空間内で互いに近づけられますが、ペアに属さない画像ベクトルとテキスト ベクトルは分離されます。
CLIP と一般的な分類モデルにはいくつかの違いがあります。
まず、OpenAI はインターネットからクロールされたデータを使用します。 4 億のテキストと画像のペアを含む非常に大規模なデータ セットでのトレーニングは次のとおりです:
1. CLIP トレーニングには「画像とテキストのペア」のみが必要で、特定のクラス ラベルは必要ありません。このタイプのデータは次のとおりです。今日のソーシャルメディア中心のオンライン世界にはたくさんあります。
2. 大規模なデータセットは、画像内の共通のテキスト概念を理解する CLIP の能力を意味します。
3. テキスト記述子には、カテゴリの特徴だけでなく、画像内のさまざまな特徴が含まれることが多く、これは、より包括的な画像とテキストの表現を確立できることを意味します。
上記の利点は、CLIP がゼロショットを確立する能力の重要な要素でもあります。論文の著者は、ResNet-101 モデルと ImageNet で特別にトレーニングされた CLIP モデルも比較し、それを派生した他のデータに適用しました。 ImageNet.Set からのパフォーマンスの比較を次の図に示します。
ResNet-101 は ImageNet でトレーニングされていますが、同様のデータセットでのパフォーマンスは、同じタスクでの CLIP パフォーマンスよりも優れていることがわかります。ずっと悪いです。
ResNet モデルを他の分野に適用する場合、一般的な方法は「線形プローブ」です。つまり、ResNet モデルの最後の数層で学習された特性が線形分類器に入力され、その後、精密分類器に入力されます。特定のデータセット向けに調整されています。
CLIP 論文では、線形検出 ResNet-50 とゼロショット CLIP が比較されています。結論として、同じシナリオでは、複数のタスクにおいてゼロショット CLIP の方が ResNet よりも優れたパフォーマンスを発揮します。-50 での線形検出。
ただし、より多くのトレーニング サンプルが与えられた場合、Zero-shot は線形検出を上回るパフォーマンスを発揮しないことに注意してください。
ゼロショット分類に CLIP を使用する
上記の説明からわかるように、画像およびテキスト エンコーダーは、入力画像とテキスト入力をマップする 512 次元のベクトルを作成できます。同じベクトル空間。
CLIP をゼロショット分類に使用するということは、カテゴリ情報をテキスト文に入れることを意味します。
たとえば、画像を入力し、そのカテゴリが車、鳥、猫のいずれであるかを判断したい場合、カテゴリを表す 3 つのテキスト文字列を作成できます。
T1 は車を表します。車の写真
T2 は鳥を表します: 鳥の写真
T3 は猫を表します: 猫の写真
カテゴリの説明をテキストに入力しますエンコーダを使用すると、カテゴリを表現できるベクトルが得られます。
入力が猫の写真であると仮定し、ViT モデルを使用してエンコードし、画像ベクトルを取得した後、カテゴリ ベクトルとのコサイン距離を類似度として計算します。が最高であることは、画像のカテゴリが猫に属していることを意味します。
ご覧のとおり、カテゴリ ラベルは単純な単語ではなく、テンプレート 「{ラベルの写真」に基づいています。 の形式を文に書き換えると、学習制限なしでカテゴリ予測に拡張できます。
実験では、このプロンプト テンプレートを使用すると、ImageNet の分類精度が 1.3 パーセント向上しました。ただし、プロンプト テンプレートによって常にパフォーマンスが向上するとは限りません。実際の使用では、さまざまなデータ セットに基づいてテストする必要があります。
Python 実装
CLIP を使用してゼロショット分類を行うことも非常に簡単です。作成者はデモンストレーションとして Hugging Face の frgfm/imagenette データ セットを選択しました。データ セットには 10 が含まれていますラベル. 、およびすべては整数値として保存されます。
CLIP を分類に使用するには、整数値ラベルを対応するテキスト コンテンツに変換する必要があります。
次のステップでは、データ セット内の画像埋め込みと 10 個のラベル テキスト埋め込みの間のドット積の類似性を計算します。最も高いスコアを持つものが予測されたカテゴリです。
#モデルは、データ セット全体でカセット プレーヤー (カセット プレーヤー) の結果を返します。再度実行すると、98.7% の精度が得られます。
ゼロショット分類、マルチモーダル検索、ターゲット検出、生成に加えて、 OpenAI の Dall-E や Stable の廃止、CLIP などのモデルは、コンピューター ビジョンへの新たな扉を開きます。
以上がImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール
