ホームページ > 記事 > テクノロジー周辺機器 > 履歴書の未来はこの68枚の写真にある? Google Brain が ImageNet を詳しく調査: トップモデルはすべて予測に失敗
過去 10 年間、基本的に ImageNet はコンピュータ ビジョン分野の「バロメーター」であり、精度が向上していれば、新しいテクノロジーが登場するかどうかがわかります。
「リストの磨き」は常にモデル革新の原動力であり、モデルのトップ 1 精度を人間よりも高い 90% に押し上げました。
#しかし、ImageNet データセットは本当に私たちが思っているほど便利なのでしょうか?
多くの論文が、データ範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に疑問を呈しています。
最も重要なことは、モデルの 90% の精度は本当に正確なのかということです。
最近、Google Brain チームとカリフォルニア大学バークレー校の研究者は、いくつかの sota モデルの予測結果を再調査し、モデルの実際の精度が過小評価されている可能性があることを発見しました。
論文リンク: https://arxiv.org/pdf/2205.04596.pdf
研究者がいくつかの上位モデルをテストすることで犯すすべての間違い 手動レビューを実行し、ベンチマーク データセットのロングテール エラーに関する洞察を得るために分類します。
主な焦点は ImageNet のマルチラベル サブセット評価にあり、最良のモデルは 97% のトップ 1 精度を達成することができました。
研究の分析によると、いわゆる予測エラーのほぼ半数はまったくエラーではなく、画像内でも見つかった新しいマルチラベルが追加されました。これは、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスが「過小評価」される可能性があることを意味します。
スキルの低いクラウドソースのデータ アノテーターはデータに誤ったラベルを付けることがよくあり、これはモデルの精度の信頼性に大きな影響を与えます。
ImageNet データセットを調整し、将来の良好な進歩を促進するために、研究者は記事内でマルチラベル評価セットの更新版を提供し、68 の例と SOTA モデルの明らかなエラーを組み合わせています。予測を新しいデータに変換する ImageNet-Major を収集して、将来の CV 研究者がこれらの悪いケースを克服できるようにします
「技術的負債」を返済する
記事のタイトルから始めてください。ベーグル?」 著者が主に歴史的な問題でもある ImageNet のラベル問題に焦点を当てていることがわかります。
下の図は、ラベルの曖昧さの非常に典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?
理論的に言えば、このモデルには予測誤差はありません。生地は焼成中でベーグルになろうとしているため、生地とベーグルの両方であるからです。
モデルは実際にこの生地がベーグル「になる」ことを予測できたことがわかりますが、精度の点でこのスコアは得られませんでした。
実際には、標準の ImageNet データセットの分類タスクを評価基準として使用すると、複数のラベルの欠如、ラベルのノイズ、カテゴリの不特定などの問題が避けられません。
このようなオブジェクトを識別する任務を負ったクラウドソースのアノテーターの観点から見ると、これは意味論的、さらには哲学的な難題であり、マルチラベル化によってのみ解決できます。 ImageNet 派生データ セットの改善は、ラベル付けの問題です。
ImageNet の設立から 16 年が経ちますが、当時のアノテーターやモデル開発者は、データに対する理解が現在ほど豊富ではなかったのは間違いなく、ImageNet は初期の大容量データであり、比較的よく注釈が付けられたデータセットであるため、ImageNet It は自然に CV ランキングの標準になっています。
しかし、データのラベル付けにかかる予算はモデル開発に比べて明らかに大きくないため、ラベル付けの問題の改善は一種の技術的負債となっています。
ImageNet の残りのエラーを見つけるために、研究者らは、事前トレーニング済みモデルとして JFT-3B を使用し、30 億のパラメーター (89.5% の精度を達成可能) を備えた標準 ViT-3B モデルを使用しました。 ImageNet-1Kで調整しました。
ImageNet2012_multilabel データ セットをテスト セットとして使用して、ViT-3B は最初に 96.3% の精度を達成しましたが、モデルは 676 枚の画像を明らかに誤って予測し、その後、これらの例について詳細な調査を実施しました。
データの再ラベル付けの際、作成者はクラウドソーシングを選択せず、5 人の専門レビュー担当者からなるチームを編成してラベル付けを実行しました。これは、この種のラベル付けエラーは専門家でないと特定するのが難しいためです。
たとえば、図 (a) では、通常のアノテーターは単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像内には他の多くのオブジェクトが含まれています。
画像 (b) の被写体は 2 人ですが、ラベルはピケット フェンス (フェンス) であり、明らかに不完全です。考えられるラベルには、蝶ネクタイ、制服などが含まれます。 . .
写真 (c) もわかりやすい例ですが、「アフリカ象」のみがマークされている場合は、象牙は無視されてもよいでしょう。
写真 (d) は湖岸とラベル付けされていますが、実際には海岸とラベル付けしても何も問題はありません。
アノテーションの効率を高めるために、研究者らは、モデルによって予測されたカテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。
場合によっては、専門家グループ間でラベルに関する論争が依然として存在する可能性があり、現時点では、ラベル付けを支援するために画像が Google 検索に追加されます。
たとえば、ある例では、モデルの予測結果にタクシーが含まれていますが、写真には「少し黄色」を除いてタクシーのブランドがありません。
この画像の注釈は、主に Google 画像検索によって画像の背景が象徴的な橋であることが発見され、研究者らは画像が位置する都市を特定し、市内のタクシー画像を検索した後、この写真には普通車ではなくタクシーが含まれていることが認められています。また、ナンバープレートのデザインとの比較でも、モデルの予測が正しかったことが証明されました。
研究のいくつかの段階で発見されたエラーを予備的に検討した後、著者らはまず、その重大度に基づいてエラーを 2 つのカテゴリに分類しました:
1. 専攻: 人間ラベルの意味、およびモデルの予測はラベルとは何の関係もありません;
2. 軽度のエラー (軽度): ラベルが間違っているか不完全であるため、予測エラーが発生する可能性があります。修正には専門家によるデータのレビューが必要です。
ViT-3B モデルによって発生した 155 件の重大なエラーについて、研究者らは、予測結果の多様性を高めるために一緒に予測するための他の 3 つのモデルを発見しました。
4 つのモデルすべてで予測できなかった重大なエラーが 68 件ありました。その後、これらの例に対するすべてのモデルの予測を分析し、どれも正しくないことを確認しました。新しいマルチラベル、つまり各モデルの予測結果は確かに重大な誤りです。
これらの 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた sota モデルがこのサブセットで間違いを犯しており、専門のレビュー担当者も予測結果がまったく無関係であると信じていることです。
68 枚の画像のデータセットも、後続の研究者による手動評価を容易にするのに十分なほど小さいため、将来これら 68 枚の画像が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。
研究者らは、データを分析することにより、予測誤差を 4 つのタイプに分類しました:
1. 予測されたカテゴリが実際のラベルに似ていますが、まったく同じではない、きめの細かい誤差;
2. 語彙範囲外 (OOV) によるきめ細かさで、カテゴリは正しいが ImageNet 内のオブジェクトに存在しないクラスをモデルが識別します;
3.スプリアス相関 (予測されたラベルが画像のコンテキストから読み取られる場合);
4. 非プロトタイプ (ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません)。
研究者らは、元の 676 件のエラーを検討した結果、そのうち 298 件が正しいはずであるか、元のラベルが間違っているか問題があると判断したことがわかりました。
一般に、この記事の研究結果から 4 つの結論が導き出されます:
1. 大規模で高精度のモデルが作成されると、その他 モデルに新しい予測がない場合、その約 50% は正しい新しいマルチラベルです。
##2. 精度の高いモデルでは、カテゴリとエラー重大度の間に明確な相関関係が示されません。3. 人間が評価したマルチラベル サブセットに対する今日の SOTA モデルのパフォーマンスは、専門家による人間の最高のパフォーマンスとほぼ一致またはそれを上回っています; 4. ノイズの多いトレーニング データと不特定のクラスは、画像の効果的な測定を制限する要因になる可能性があります分類の改善。 おそらく、画像のラベル付けの問題は、自然言語処理テクノロジーが解決されるまで待たなければならないのでしょうか?以上が履歴書の未来はこの68枚の写真にある? Google Brain が ImageNet を詳しく調査: トップモデルはすべて予測に失敗の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。