ホームページ > 記事 > テクノロジー周辺機器 > ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました
ImageNet は長い間その歴史的使命を終えてきましたが、依然としてコンピューター ビジョンの分野における重要なデータ セットです。
2016 年、ImageNet でトレーニングされた分類モデルの sota 精度率はまだ 80% 未満でしたが、今日に至るまで、大規模な事前トレーニングされたモデルに基づいたゼロショット一般化が行われています。それだけで 80.1% の精度を達成できます。
Laion は最近、オープンソースの OpenCLIP フレームワーク # を使用して、新しい ViT-G/14 CLIP## をトレーニングしましたモデル、ImageNet データセットでは、元の OpenAI CLIP の精度はわずか 75.4% ですが、OpenCLIP は 80.1% のゼロショット精度を達成し、MS COCO では 74.9% のゼロショットを達成します。画像取得 (Recall@5)。これも 現在最も強力なオープンソース CLIP モデル です。
LAION は、Large-scale Artificial Intelligence Open Network の略で、世界中からメンバーが集まる非営利団体です。大規模な人工知能の一般公開: 機械学習モデル、データセット、および関連コードをスケールします。彼らは、真のオープン AI、100% 非営利、100% 無料であると主張しています。興味のある友人は、手元の CLIP モデルを更新できます。
モデルアドレス: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k
各データセットにおける OpenCLIP モデルの具体的なパフォーマンスを以下の表に示します。
#ゼロショット機能
#汎化問題は、大量のトレーニング データが不足している分野では特に重要です。
理想的には、CV モデルは、トレーニング セット内の特定のラベルに焦点を当てすぎるのではなく、画像の意味論的な内容を学習する必要があります。たとえば、犬の画像の場合、モデルは画像の中に犬がいることを理解でき、さらに背景に木があること、時間は昼間であること、犬が芝生の上にいることなども理解できる必要があります。 。
しかし、「分類トレーニング」によって得られた現在の結果は、期待とはまったく逆です。モデルは、犬の内部表現を同じ「犬ベクトル空間」に押し込み、猫を同じ「犬ベクトル空間」に押し込むことを学習します。同じ「猫ベクトル空間」では、すべての質問に対する答えは 2 値、つまり、画像をカテゴリ ラベルと位置合わせできるかどうかです。
新しいタスクの分類モデルを再トレーニングすることも解決策ですが、トレーニング自体には多大な時間と資金が必要です。分類データセットを収集し、モデルをトレーニングするための投資。
幸いなことに、OpenAI の CLIP モデルは非常に柔軟な分類モデルであり、通常は再トレーニングすることなく新しい分類タスクに使用できます。
CLIP がゼロショットできる理由 Contrastive Language-Image Pretraining (CLIP、Contrastive Language-Image Pretraining) は、2021 年に OpenAI によってリリースされたモデルで、主に Transformer に基づいています。
CLIP 内のテキスト モデルと画像モデルは両方とも、ベクトル空間で同様のテキストと画像を配置するために事前トレーニング中に最適化されます。トレーニング プロセス中、データ内の画像とテキストのペアはベクトル空間内で互いに近づけられますが、ペアに属さない画像ベクトルとテキスト ベクトルは分離されます。
CLIP と一般的な分類モデルにはいくつかの違いがあります。
まず、OpenAI はインターネットからクロールされたデータを使用します。 4 億のテキストと画像のペアを含む非常に大規模なデータ セットでのトレーニングは次のとおりです:
1. CLIP トレーニングには「画像とテキストのペア」のみが必要で、特定のクラス ラベルは必要ありません。このタイプのデータは次のとおりです。今日のソーシャルメディア中心のオンライン世界にはたくさんあります。
2. 大規模なデータセットは、画像内の共通のテキスト概念を理解する CLIP の能力を意味します。
3. テキスト記述子には、カテゴリの特徴だけでなく、画像内のさまざまな特徴が含まれることが多く、これは、より包括的な画像とテキストの表現を確立できることを意味します。
上記の利点は、CLIP がゼロショットを確立する能力の重要な要素でもあります。論文の著者は、ResNet-101 モデルと ImageNet で特別にトレーニングされた CLIP モデルも比較し、それを派生した他のデータに適用しました。 ImageNet.Set からのパフォーマンスの比較を次の図に示します。
ResNet-101 は ImageNet でトレーニングされていますが、同様のデータセットでのパフォーマンスは、同じタスクでの CLIP パフォーマンスよりも優れていることがわかります。ずっと悪いです。
ResNet モデルを他の分野に適用する場合、一般的な方法は「線形プローブ」です。つまり、ResNet モデルの最後の数層で学習された特性が線形分類器に入力され、その後、精密分類器に入力されます。特定のデータセット向けに調整されています。
CLIP 論文では、線形検出 ResNet-50 とゼロショット CLIP が比較されています。結論として、同じシナリオでは、複数のタスクにおいてゼロショット CLIP の方が ResNet よりも優れたパフォーマンスを発揮します。-50 での線形検出。
ただし、より多くのトレーニング サンプルが与えられた場合、Zero-shot は線形検出を上回るパフォーマンスを発揮しないことに注意してください。
上記の説明からわかるように、画像およびテキスト エンコーダーは、入力画像とテキスト入力をマップする 512 次元のベクトルを作成できます。同じベクトル空間。
CLIP をゼロショット分類に使用するということは、カテゴリ情報をテキスト文に入れることを意味します。
たとえば、画像を入力し、そのカテゴリが車、鳥、猫のいずれであるかを判断したい場合、カテゴリを表す 3 つのテキスト文字列を作成できます。
T1 は車を表します。車の写真
T2 は鳥を表します: 鳥の写真
T3 は猫を表します: 猫の写真
カテゴリの説明をテキストに入力しますエンコーダを使用すると、カテゴリを表現できるベクトルが得られます。
入力が猫の写真であると仮定し、ViT モデルを使用してエンコードし、画像ベクトルを取得した後、カテゴリ ベクトルとのコサイン距離を類似度として計算します。が最高であることは、画像のカテゴリが猫に属していることを意味します。
ご覧のとおり、カテゴリ ラベルは単純な単語ではなく、テンプレート 「{ラベルの写真」に基づいています。 の形式を文に書き換えると、学習制限なしでカテゴリ予測に拡張できます。
実験では、このプロンプト テンプレートを使用すると、ImageNet の分類精度が 1.3 パーセント向上しました。ただし、プロンプト テンプレートによって常にパフォーマンスが向上するとは限りません。実際の使用では、さまざまなデータ セットに基づいてテストする必要があります。
CLIP を使用してゼロショット分類を行うことも非常に簡単です。作成者はデモンストレーションとして Hugging Face の frgfm/imagenette データ セットを選択しました。データ セットには 10 が含まれていますラベル. 、およびすべては整数値として保存されます。
CLIP を分類に使用するには、整数値ラベルを対応するテキスト コンテンツに変換する必要があります。
#タグと写真の類似性を直接計算する前に、CLIP モデルを初期化する必要があります。これは、Hugging Face で見つかった CLIP を使用して実装できます。トランスフォーマー。 テキスト トランスフォーマーはテキストを直接読み取ることはできませんが、トークン ID (または input_ID) と呼ばれる整数値のセットが必要です。各トークン ID は一意です。 integer はワードまたはサブワード (つまり、トークン) を表します。 変換されたテンソルをテキスト トランスフォーマに入力して、ラベルのテキスト埋め込みを取得します 現在 CLIP であることに注意してください出力ベクトルは正規化されていないため、ドット乗算後に得られる類似度の結果は不正確です。 次に、テスト用にデータ セット内の画像を選択し、同じ処理プロセスの後に画像ベクトルを取得できます。 #画像を次元 (1, 3, 224, 224) のベクトルに変換した後、それをモデルに入力して埋め込みを取得します次のステップでは、データ セット内の画像埋め込みと 10 個のラベル テキスト埋め込みの間のドット積の類似性を計算します。最も高いスコアを持つものが予測されたカテゴリです。
#モデルは、データ セット全体でカセット プレーヤー (カセット プレーヤー) の結果を返します。再度実行すると、98.7% の精度が得られます。
ゼロショット分類、マルチモーダル検索、ターゲット検出、生成に加えて、 OpenAI の Dall-E や Stable の廃止、CLIP などのモデルは、コンピューター ビジョンへの新たな扉を開きます。
以上がImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。