ホームページ >テクノロジー周辺機器 >AI >OpenAI 研究者: データが不十分な場合に教師あり学習を実装する方法

OpenAI 研究者: データが不十分な場合に教師あり学習を実装する方法

王林転載: 2023-04-12 08:58:091190ブラウズ

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

実際のアプリケーションでは、データは簡単に取得できますが、ラベル付きデータはまれです。

一般的に、教師あり学習タスクがラベルデータ不足の問題に直面した場合、次の 4 つの解決策が考えられます。

1.予備トレーニングの微調整: まず、大規模な教師なしデータコーパスで強力なタスク非依存モデルを事前トレーニングします (例: 自己教師あり学習によるフリーテキストでの言語モデル、またはラベルのない画像でのビジョンモデルの事前トレーニング)事前トレーニング)、ラベル付きサンプルの小さなセットを使用して下流タスクでモデルを微調整します。

2. 半教師あり学習: ラベル付きサンプルとラベルなしサンプルから同時に学習研究者はこの方法を使用して、視覚タスクに関する多くの研究を行ってきました。

3. アクティブラーニング: ラベル付けのコストは高くなります。コスト予算が限られている場合でも、できるだけ多くのラベルデータを収集したいと考えています。アクティブラーニングは、最も価値のあるラベルのないサンプルを選択することを学習し、その後の収集プロセスでそのようなデータを収集します。これにより、モデルが限られた予算内で可能な限り望ましい効果を達成できるようになります。

4. 事前トレーニングデータセットの自動生成: 強力な事前トレーニングモデルがあれば、そのモデルを使用してさらに多くのラベル付きサンプルを自動的に生成できます。少数回学習の成功により、この方法は言語領域で特に人気があります。

#この記事では、半教師あり学習の手法を包括的に紹介します。著者は OpenAI 研究者の Lilian Weng です。ブログアドレス: https://lilianweng.github.io/

1 半教師あり学習とは何ですか?

半教師あり学習では、ラベル付きデータとラベルなしデータの両方を使用してモデルをトレーニングします。興味深いことに、半教師あり学習に関する既存の文献のほとんどは視覚タスクに焦点を当てています。事前トレーニングと微調整の方法は、言語タスクにおいてより一般的なパラダイムです。この記事で説明したすべての方法の損失は、次の 2 つの部分で構成されます。このうち、監視損失は、すべてのサンプルがラベル付きサンプルである場合に計算が非常に簡単です。私たちは、教師なし損失を設計する方法に焦点を当てる必要があります。重み付け項目 OpenAI 研究员：数据不足时，如何实现监督学习は通常、勾配関数の使用を選択します (t はトレーニングステップ数です)。トレーニング回数が増加するにつれて、の割合が増加します。免責事項: この記事では、半教師ありメソッドをすべてカバーしているわけではなく、モデルアーキテクチャのチューニングのみに焦点を当てています。半教師あり学習で生成モデルとグラフベースの手法を使用する方法については、論文「深層半教師あり学習の概要」を参照してください。 OpenAI 研究员：数据不足时，如何实现监督学习 2

シンボル説明表

# ＃シンボル＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃意味＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃ラベルデータセット、ここでラベルのないデータセット。 ##i 番目のサンプル。

3 仮定

既存の研究文献では、半教師あり学習方法における特定の設計に関する決定をサポートするために、次の仮定が議論されています。

仮定 1: 滑らかさの仮定

2 つのデータサンプルが特徴空間の密度領域の上限にある場合近い場合、それらのラベルは同じか非常に似ている必要があります。

仮定 2: クラスターの仮定

特徴空間には、密な領域と疎な領域の両方があります。密にグループ化されたデータポイントは自然にクラスターを形成します。同じクラスター内のサンプルには同じラベルが必要です。これは仮定 1 を少し拡張したものです。

仮定 3: 低密度分離の仮定

クラス間の決定境界は、多くの場合、疎な低密度に位置します。そうしないと、決定境界によって高密度クラスターが 2 つのクラスターにそれぞれ対応する 2 つのクラスに分割され、仮定 1 と仮定 2 の両方が無効になるためです。

仮定 4: 多様体の仮定

高次元のデータは低次元の多様体に配置される傾向があります。実世界のデータは非常に高次元で観察される場合がありますが (実世界のオブジェクト/シーンの画像など)、実際には低次元の多様体によってキャプチャすることができます。データの特定のプロパティをキャプチャし、いくつかの類似したデータポイントを厳密にグループ化します。 (たとえば、現実世界のオブジェクト/シーンの画像は、すべてのピクセルの組み合わせの均一な分布から得られるわけではありません)。これにより、モデルは、ラベルのないデータポイント間の類似性を発見して評価するためのより効率的な表現方法を学習できるようになります。これは表現学習の基礎でもあります。この仮定の詳細な説明については、「半教師あり学習で一般的な仮定を理解する方法」の記事を参照してください。

リンク: https://stats.stackexchange.com/questions/66939/what-is-the-manifold-assumption-in-semi-supervised-learning

4 一貫性の正則化

一貫性の正則化は一貫性トレーニングとも呼ばれ、同じ入力が与えられた場合、ニューラルネットワークのプロパティ (ドロップアウトアルゴリズムの使用など) がランダムであることを前提としています。 ) またはデータ拡張変換はモデルの予測を変更しません。このセクションの各メソッドには、一貫性の正則化損失があります: OpenAI 研究员：数据不足时，如何实现监督学习。 SimCLR、BYOL、SimCSE などのいくつかの自己教師あり学習手法では、この考え方が採用されています。同じサンプルの異なる拡張バージョンは、同じ表現を生成します。言語モデリングにおけるクロスビュートレーニングと自己教師あり学習におけるマルチビュー学習の研究動機は同じです。

(1).Π モデル

OpenAI 研究员：数据不足时，如何实现监督学习

##図 1: Π モデルの概要。同じ入力が異なるランダム拡張とドロップアウトマスクで摂動されて 2 つのバージョンが生成され、ネットワークを通じて 2 つの出力が取得されます。Π モデルは 2 つの出力が一貫していると予測します。 (画像出典: Laine と Aila の 2017 年の論文「半教師あり学習の逐次統合」)

2016 年に発表された論文「深層半教師あり学習のための確率的変換と摂動による正規化」で、Sajjadi らは、ランダム変換を通じて同じデータポイントの 2 つのバージョンを生成できる教師なし学習損失を提案しました。（ドロップアウト、ランダム最大プーリングなど）、ネットワークを通過した後の 2 つの出力結果の差を最小限に抑えます。ラベルが明示的に使用されていないため、この損失はラベルのないデータセットに適用される可能性があります。 Laine と Aila は後に、2017 年に発表された論文「半教師あり学習のための時間アンサンブル」でこの処理方法に Π モデルと呼ばれる名前を付けました。 OpenAI 研究员：数据不足时，如何实现监督学习このうち、は、同じニューラルネットワークに適用される異なるランダムエンハンスメントまたはドロップアウトマスクの値を指します。この損失ではデータセット全体が使用されます。

##(2) タイミング統合 (時間アンサンブル)

OpenAI 研究员：数据不足时，如何实现监督学习

#図 2: タイミング統合の概要。その学習目標は、各サンプルの指数移動平均 (EMA) でラベル予測を行うことです。 (画像出典: Laine と Aila の 2017 年の論文「半教師あり学習の逐次統合」)

Πこのモデルでは、各サンプルがニューラルネットワークを 2 回通過する必要があるため、計算コストが 2 倍になります。コストを削減するために、時間アンサンブルモデルは学習ターゲットとして各トレーニングサンプル OpenAI 研究员：数据不足时，如何实现监督学习のリアルタイムモデル予測の指数移動平均 (EMA) を引き続き使用し、EMA の計算と更新は 1 回だけで済みます。各反復で。逐次積分モデルの出力は 0 に初期化されているため、この起動バイアスを補正するために正規化のために OpenAI 研究员：数据不足时，如何实现监督学习で除算します。 Adam オプティマイザーにも同じ理由でこのようなバイアス補正項があります。ここで、は t 回目の反復におけるアンサンブル予測、は現在のラウンドにおけるモデル予測です。 OpenAI 研究员：数据不足时，如何实现监督学习 =0 であるため、バイアス補正後、は最初の反復におけるモデル予測値と完全に等しいことに注意してください。

(3) 意地悪な教師

OpenAI 研究员：数据不足时，如何实现监督学习

図 3: 意地悪な教師のフレームワークの概要 (イメージ)出典: Tarvaninen と Valpola の論文「The Mean Teacher Model is a Better-Performing Exemplar Model: Weighted Average Consistency Objective Optimization Semi-supervised Deep Learning Results」(2017 年発行)

時間アンサンブルモデルは、学習目標として各トレーニングサンプルのラベル予測の指数移動平均を追跡します。ただし、このラベル予測は反復ごとにのみ変更されるため、トレーニングデータセットが大きい場合、このアプローチは面倒になります。目標の更新速度が遅いという問題を克服するために、Tarvaninen と Valpola は 2017 年に論文「平均教師はより優れたロールモデル: 加重平均一貫性ターゲット最適化の半教師あり深層学習の結果」を発表しました (平均教師はより優れたロールモデル: Weight-平均化された一貫性ターゲットは半教師あり深層学習の結果を改善します)、モデル出力の代わりにモデルの重みの移動平均を追跡することによってターゲットを更新する平均教師アルゴリズムが提案されています。重み θ を持つ元のモデルは Student モデルと呼ばれ、重みが複数の連続する Student モデルの移動平均重み θ ' であるモデルは Mean Teacher モデルと呼ばれます。

OpenAI 研究员：数据不足时，如何实现监督学习

一貫性正則化損失は、Student モデルと Teacher モデルの予測間の距離であり、このギャップは最小限に抑える必要があります。 Mean Teacher モデルは Student モデルよりも正確な予測を提供できます。この結論は、図 4 に示すように、実証実験で確認されています。

OpenAI 研究员：数据不足时，如何实现监督学习

図 4: SVHN データセット上の Π モデルと平均教師モデルの分類誤差。 Mean Teacher モデル (オレンジ色の線で表示) は Student モデル (青の線で表示) よりも優れたパフォーマンスを示します。 (画像ソース: Tarvaninen と Valpola の論文「The Mean Teacher Model is a Better-Performing Exemplar Model: Weighted Average Consistency Objective Optimization Semi-supervised Deep Learning Results」2017 年発行)

アブレーション研究によると:

入力強調方法 (入力画像のランダムな反転、ガウスノイズなど) またはスチューデントモデルのドロップアウト処理がモデルに適しています。実装パフォーマンスは必須です。教師モードではドロップアウト処理は必要ありません。
パフォーマンスは、指数移動平均の減衰ハイパーパラメータ β に影響されます。より良い戦略は、成長段階では小さい β=0.99 を使用し、スチューデントモデルの改善が鈍化する後期段階では大きい β=0.999 を使用することです。
一貫性コスト関数の平均二乗誤差 (MSE) は、KL 発散などの他のコスト関数よりも優れたパフォーマンスを発揮することがわかりました。

(4) ノイズサンプルを学習ターゲットとして使用する

最近の一貫性トレーニング手法のいくつかは、ラベルのない元のサンプルと対応する拡張バージョンを組み合わせる方法を学習します。最小化されます。この考え方は Π モデルに非常に似ていますが、その一貫性正則化損失はラベルのないデータに対してのみ機能します。

OpenAI 研究员：数据不足时，如何实现监督学习

#図 5: ノイズのあるサンプルを使用した一貫性トレーニング

#Goodfellow らが 2014 年に発表した論文「Explaining and Harnessing Adversarial Examples」では、敵対的トレーニング (Adversarial Training) は、入力に敵対的ノイズを適用してトレーニングするモデルにより、そのような敵対的攻撃に対して堅牢になります。

この手法の教師あり学習への適用式は次のとおりです。

OpenAI 研究员：数据不足时，如何实现监督学习

ここで、 OpenAI 研究员：数据不足时，如何实现监督学习は真の値ラベルのワンホットエンコーディングを近似する真の分布、はモデル予測、は値間の差を計算する距離関数です。 2つの配布。宮戸らは、2018 年に発表された論文「Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning」(Virtual Adversarial Training、VAT) で仮想敵対トレーニングを提案しましたが、この手法は、半教師あり学習の分野。 OpenAI 研究员：数据不足时，如何实现监督学习は未知であるため、現在の重みがに設定されている場合、VAT は未知の項を元の入力の現在のモデルの予測に置き換えます。はモデルの重みの固定値であるため、に対して勾配の更新は実行されないことに注意してください。

OpenAI 研究员：数据不足时，如何实现监督学习

#VAT 損失は、ラベル付きサンプルとラベルなしサンプルの両方に適用されます。各データポイントでの現在のモデルの予測多様体の負の滑らかさを計算します。この損失を最適化すると、予測多様体がよりスムーズになります。 Verma らは、2019 年の論文「半教師あり学習のための補間一貫性トレーニング」で、より多くのデータポイントの内挿を追加することにより、内挿一貫性トレーニング (ICT) を提案しました。モデルの予測と対応するラベルの内挿が次のようになるようにデータセットを強化しました。可能な限り一貫性のあるもの。 Honyi Zhang らは、2018 年の論文「Mixup: Beyond Empirical Risk Minimization」で、単純な加重合計を通じて 2 つの画像を混合する MixUp 手法を提案しました。内挿一貫性トレーニングはこの考えに基づいており、予測モデルが、対応する入力の予測内挿と一致する混合サンプルのラベルを生成できるようにします。

OpenAI 研究员：数据不足时，如何实现监督学习

##ここで、

は、平均教師モデルの θ OpenAI 研究员：数据不足时，如何实现监督学习の移動平均を表します。

OpenAI 研究员：数据不足时，如何实现监督学习

# 図 6: 補間一貫性トレーニングの概要。 MixUp メソッドを使用して、内挿ラベルを学習ターゲットとしてさらに内挿サンプルを生成します。 (画像出典: Verma et al. の 2019 年の論文「半教師あり学習のための補間一貫性トレーニング」)

ランダムに選択された 2 つのラベルなしサンプルは異なるカテゴリに属するため、確率はは非常に高いため (たとえば、ImageNet には 1000 のターゲットカテゴリがあります)、2 つのランダムなラベルなしサンプル間に Mixup メソッドを適用すると、決定境界付近で補間が生成される可能性があります。低密度分離仮説によれば、決定境界は低密度領域に位置することがよくあります。

OpenAI 研究员：数据不足时，如何实现监督学习

は、 OpenAI 研究员：数据不足时，如何实现监督学习 θ の移動平均を表します。 VAT と同様に、2020 年の論文「一貫性トレーニングのための教師なしデータ拡張」で Xie らによって提案された教師なしデータ拡張 (UDA) は、ラベルのないサンプルに拡張サンプルによって予測されたものと同じ出力を与えることを学習します。 UDA は、一貫したトレーニングを通じてノイズの「品質」が半教師あり学習のパフォーマンスにどのような影響を与えるかを研究することに特に焦点を当てています。意味のある効率的なノイズサンプルを生成するには、高度なデータ拡張手法を使用することが重要です。優れたデータ拡張手法は、ターゲットを絞った誘導バイアスを使用して効率的 (つまり、ラベルを変更しない) で多様なノイズを生成できる必要があります。

画像フィールドの場合、UDA は、Cubuk らによって 2019 年の論文「RandAugment: A 実用的な自動データ強化手法により、検索スペース " (RandAugment: 検索スペースを削減した実用的な自動データ拡張)。これは、学習や最適化を必要とせずに、Python 画像処理ライブラリ PIL で利用可能な拡張操作を均一にサンプリングするため、AutoAugment メソッドを使用するよりもはるかに安価です。

OpenAI 研究员：数据不足时，如何实现监督学习

図 7: CIFAR-10 分類におけるさまざまな半教師あり学習手法の比較。 RandAugment 処理を行わずに 50,000 サンプルでトレーニングした場合、完全な監視下での Wide-ResNet-28-2 と PyramidNet ShakeDrop のエラー率はそれぞれ **5.4** と **2.7** です。

言語フィールドの場合、UDA は TF-IDF に基づく逆翻訳と単語置換の組み合わせを使用します。逆翻訳では高レベルの意味は保持されますが、特定の単語自体は保持されません。一方、TF-IDF ベースの単語置換では、TF-IDF スコアの低い有益でない単語が削除されます。言語タスクに関する実験で、研究者らは、UDA が転移学習と表現学習を補完するものであることを発見しました。たとえば、ドメイン内のラベルなしデータ (図 8 の ) で BERT モデルを微調整すると、パフォーマンスがさらに向上します。 OpenAI 研究员：数据不足时，如何实现监督学习

OpenAI 研究员：数据不足时，如何实现监督学习

図 8: さまざまなテキスト分類タスクでさまざまな初期化設定を使用した教師なしデータ拡張手法の比較。 (画像出典: Xie et al. の 2020 年の論文「Unsupervised Data Augmentation for Consistency Training」)

OpenAI 研究员：数据不足时，如何实现监督学习を計算する場合、以下を使用して UDA を使用できます。結果を最適化するための 3 つのトレーニング手法:

低信頼度マスキング: サンプルの予測信頼度がしきい値より低い場合は、マスク処理を実行します。
予測分布の鮮明化: Softmax で低温を使用して、予測確率分布を鮮明にします。
ドメイン内データのフィルタリング: 大規模なドメイン外データセットからより多くのドメイン内データを抽出するために、研究者は分類器をトレーニングしてドメイン内ラベルを予測し、保持します。予測の信頼度が高いサンプルは、ドメイン内候補サンプルとして使用されます。

OpenAI 研究员：数据不足时，如何实现监督学习

このうち、 OpenAI 研究员：数据不足时，如何实现监督学习は##と同じモデル重みの固定値です。 # は VAT にあるため、勾配の更新はありません。は拡張データポイント、は予測信頼度のしきい値、は分布鮮明化温度です。

5 擬似ラベリング

Lee らの 2013 年の論文「擬似ラベリング: ディープニューラルネットワークのためのシンプルで効率的な半教師あり学習方法」擬似ラベル: ディープニューラルネットワークのシンプルで効率的な半教師あり学習法は (擬似ラベル: ディープニューラルネットワークのためのシンプルで効率的な半教師あり学習法) で提案されており、最大ソフトマックスに基づいてラベルのないサンプルに擬似ラベルを割り当てます。現在のモデルによって予測された確率を計算し、完全に監視された設定の下でラベルのないサンプルに擬似ラベルを割り当てます。ラベル付きサンプルとラベルなしサンプルでモデルを同時にトレーニングします。

なぜ疑似タグが機能するのでしょうか?擬似ラベル付けは、実際にはエントロピー正則化と同等であり、ラベルなしデータのクラス確率の条件付きエントロピーを最小限に抑え、それによってクラス間の低密度分離を実現します。言い換えれば、予測されたクラス確率は実際にクラスの重複を計算し、エントロピーを最小化することはクラスの重複、したがって密度分離を削減することと同等です。

OpenAI 研究员：数据不足时，如何实现监督学习

#図 9: (a) は、600 個のラベル付きデータのみを使用してモデルをトレーニングした後、MINIST でテスト出力が実行されることを示しています。テストセット t-SNE 視覚化結果 (b) は、600 個のラベル付きデータと 60,000 個のラベルなしデータの疑似ラベルを使用してモデルをトレーニングした後の、MINIST テストセットでのテスト出力の t-SNE 視覚化結果を表します。擬似ラベルにより、学習された埋め込み空間がより適切に分離できるようになります。 (画像出典: Lee et al. の 2013 年の論文「Pseudo Labels: A Simple and Efficient Semi-supervised Learning Method for Deep Neural Networks」)

疑似ラベルを次の目的で使用します。トレーニング自然は反復的なプロセスです。ここで、擬似ラベルを生成するモデルをTeacherモデル、擬似ラベルを用いて学習するモデルをStudentモデルと呼びます。

(1) ラベル伝播

Iscenらが2019年に発表した論文「Label Propagation for Deep Semi-supervised Learning」においてラベル伝播の概念が提案されました半教師あり学習では、特徴の埋め込みに基づいてサンプル間の類似性グラフを構築するというアイデアです。次に、グラフ内のペアごとの類似性スコアに比例した伝播重みを使用して、擬似ラベルが既知のサンプルからラベルのないサンプルに「拡散」されます。概念的には、これは k-NN 分類器に似ていますが、どちらも大規模なデータセットにうまく対応できないという問題があります。

OpenAI 研究员：数据不足时，如何实现监督学习

# 図 10: タグの伝播がどのように機能するかを示す概略図。（画像出典：2019年Iscenら発行「Label Propagation of Deep Semi-supervised Learning」） (2)セルフトレーニング

自己トレーニングは新しい概念ではありません。Scudder らは 1965 年に「一部の適応パターン認識マシンのエラーの確率」という論文を発表し、Nigram & Ghani らは CIKM で論文「Co-training の有効性と適用性の分析」を発表しました。 2000年に出版されたtrainin』にはすべてこのコンセプトが含まれています。これは、ラベルのない各サンプルがラベルと一致するまで、次の 2 つのステップを順番に実行する反復アルゴリズムです。

Xie et al. が 2020 ImageNet 分類で発表した論文「騒々しい学生によるセルフトレーニングにより ImageNet 分類が向上する」では、セルフトレーニングがディープラーニングに適用され、大きな成果を上げた。 ImageNet 分類タスクでは、研究者らはまず EfficientNet モデルを教師モデルとしてトレーニングして 3 億枚のラベルなし画像の疑似ラベルを生成し、次により大きな EfficientNet モデルを学生モデルとしてトレーニングして、実際のラベル付き画像と疑似ラベルを学習しました。彼らの実験設定では、重要な要素は Student モデルのトレーニング中にノイズを追加することですが、Teacher モデルは擬似ラベル生成プロセス中にノイズを追加しません。したがって、彼らの方法は「Noisy Student」と呼ばれ、ランダムな深さ、ドロップアウト、および RandAugment メソッドを使用して Student モデルにノイズを追加します。 Student モデルは Teacher モデルよりも優れたパフォーマンスを示しますが、これは主にノイズを追加する利点によるものです。追加されたノイズは、ラベル付きデータとラベルなしデータの両方でモデルによって生成された決定境界を平滑化するという複合効果をもたらします。 Student モデルのセルフトレーニングには、他にも次のような重要な技術設定がいくつかあります。

Student モデルに加えて、より多くのデータを適合させるのに十分な大きさ (つまり Teacher モデルよりも大きい) にする必要があります。
ノイズを追加するスチューデントモデルは、データバランシング手法と組み合わせる必要があります。これは、クラスの重みごとに疑似ラベル付けされた画像の数のバランスを取るために特に重要です。
ソフト疑似タグはハードタグよりもうまく機能します。

Student モデルにノイズを追加すると、FGSM (入力データの損失勾配を使用し、入力データを調整して最大化する高速勾配符号攻撃) に対する防御力も向上します。モデルが敵対的な堅牢性のために最適化されていない場合でも、堅牢性。

Du らは、2020 年の論文「自己トレーニングにより自然言語理解のための事前トレーニングが改善される」で SentAugment メソッドを提案しました。言語分野の自己訓練を行う際のドメイン。文ベクトルに依存して大規模なコーパスからラベルのないドメイン内サンプルを検索し、取得した文を自己トレーニングに使用します。

(3) 確証バイアスの軽減（Confification Bias）

確証バイアスとは、教師モデルが成熟していないために誤った疑似ラベルが与えられてしまう問題のことです。十分。間違ったラベルに過剰適合すると、より良い Student モデルが得られない可能性があります。

確証バイアスを軽減するために、Eric Arazoらの論文「深層半教師あり学習における擬似ラベリングと確証バイアス」（教師あり学習では2つの新しい手法が提案されています）。

1 つはソフトラベルを使用したミックスアップ法です。 OpenAI 研究员：数据不足时，如何实现监督学习 2 つのサンプルと対応する真のラベルと擬似ラベルが与えられると、内挿ラベル方程式はソフトマックス出力クロスに変換できます。 -エントロピー損失:

OpenAI 研究员：数据不足时，如何实现监督学习

ラベル付きサンプルが少なすぎる場合は、Mixup メソッドを使用するだけでは十分ではありません。したがって、論文の著者はラベルサンプルをオーバーサンプリングして、各ミニバッチ内のラベルサンプルの最小数を設定しました。これは、ラベル付きサンプルの重み補正よりも効果的です。これは、頻度が低くて大規模な更新ではなく、より頻繁に更新されるためです (実際にはより不安定です)。

一貫性の正則化と同様に、データ拡張およびドロップアウト手法も擬似ラベルの役割を果たすために重要です。

Hieu Pham らは、2021 年の論文「Meta Pseudo Labels」でメタ擬似ラベルを提案しました。ラベルデータセットのパフォーマンスに関するスチューデントモデルのフィードバックに基づいて、継続的な調整が行われます。教師モデル。 Teacher モデルと Student モデルは同時にトレーニングされ、Teacher モデルはより適切な擬似ラベルを生成することを学習し、Student モデルは擬似ラベルから学習します。

教師モデルと学生モデルの重みをそれぞれ OpenAI 研究员：数据不足时，如何实现监督学习とに設定します。ラベル付きサンプルの学生モデルの損失はの関数として定義され、それに応じてこの損失を最小限に抑えるために教師モデルを最適化する傾向があります。

OpenAI 研究员：数据不足时，如何实现监督学习

ただし、上記の方程式を最適化するのは簡単な作業ではありません。 MAML (Model-Agnostic Meta-Learnin) のアイデアを借用すると、マルチステップ OpenAI 研究员：数据不足时，如何实现监督学习計算を実行しながらで 1 ステップの勾配更新を実行することに似ています。

OpenAI 研究员：数据不足时，如何实现监督学习

#ソフト疑似ラベルが使用されているため、上記の目的関数は微分可能な関数です。ただし、ハード擬似ラベルを使用した場合、微分不可能な関数となるため、REINFORCE などの強化学習手法が必要になります。

最適化プロセスは、2 つのモデル間で交互に実行されます:

スチューデントモデルの更新: ラベルのないサンプルのバッチが与えられた場合、関数を通じて疑似ラベルを生成し、ワンステップの確率的勾配降下法を使用してを最適化できます: ## ＃。
教師モデルの更新: ラベル付きサンプルのバッチが与えられた場合、学生モデルの更新を繰り返し使用して : を最適化します。さらに、一貫した正則化を組み込むために、UDA オブジェクトが Teacher モデルに適用されます。

OpenAI 研究员：数据不足时，如何实现监督学习

図 11: メタ擬似ラベリングと他の半教師あり学習または自己教師あり学習の比較画像に対するメソッドの分類タスクにおけるパフォーマンスの比較。 (画像ソース: Hieu Pham et al. の 2021 年の論文「Meta Pseudo Labels」)

6 一貫性正則化擬似ラベル

一貫性と正則化を組み合わせることができます。擬似ラベリング手法を組み合わせて半教師あり学習に適用します。

(1) MixMatch

Berthelot らの 2019 年の論文「MixMatch: A Holistic Approach to Semi-supervised Learning」「To Semi」で提案された MixMatch 手法-教師あり学習」は、半教師あり学習に適用される全体的な手法です。次の手法を統合することで、ラベルのないデータを使用します:

一貫性の正則化: モデルが摂動されたラベルのないサンプルに対して同じ予測を出力できるようにします。
エントロピー最小化 (エントロピー最小化): ラベルのないデータに対する信頼性の高い予測をモデルに出力させます。
MixUp の機能強化: モデルがサンプル間で線形に動作するようにします。

ラベル付きデータ OpenAI 研究员：数据不足时，如何实现监督学习とラベルなしデータのバッチが与えられた場合、拡張バージョンは操作およびを通じて取得されます。それぞれ、強化されたサンプルとラベルされていないサンプルの予測されたラベルを表します。

OpenAI 研究员：数据不足时，如何实现监督学习

OpenAI 研究员：数据不足时，如何实现监督学习は、推測されるラベルの重複を減らすために使用されるシャープニング温度です。K はそれぞれの強化されたラベルの数です。ラベルサンプルによって生成されたバージョン。は MixMatch 関数のパラメーターです。各 OpenAI 研究员：数据不足时，如何实现监督学习に対して、MixMatch は K 個の拡張バージョン ( は k から 1 に等しい) を生成し、....、の K 個の拡張バージョンを生成し、モデルは平均に基づいて擬似ラベルを推測します。

OpenAI 研究员：数据不足时，如何实现监督学习

図 12: MixMatch の「ラベル推測」プロセス: K 個の強化されたラベルなしサンプルの平均により、予測された周辺分布が修正され、最終的に分布が鮮明になります。 (画像出典: Berthelot et al. の 2019 年の論文「MixMatch: A Holistic Method for Semi-supervised Learning」)

この論文のアブレーション研究によると、ラベルなしデータの MixUp 拡張は特に重要です。擬似ラベル分布の温度シャープニングを削除すると、パフォーマンスに重大な影響を与える可能性があります。ラベルを推測するには、ラベルのないデータの複数の拡張バージョンの平均を計算することも重要です。 2020 年の論文「ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring」(ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring) では、Berthelot らは、次の 2 つの新しいメカニズムを導入することにより、ReMixMatch メソッドをさらに提案しました。

OpenAI 研究员：数据不足时，如何实现监督学习

## 図 13: ReMixMatch メソッドによる MixMatch メソッドの 2 つの改善の図見せる。 (画像出典: Berthelot et al. の 2020 年の論文「ReMixMatch: 分布アライメントと強化されたアンカリングを使用した半教師あり学習」)

1. 分布アライメント (分布アライメント ) 。この方法により、周辺分布 OpenAI 研究员：数据不足时，如何实现监督学习が真値ラベルの周辺分布に近くなります。をグラウンドトゥルースラベルのクラス分布、をラベルなしデータの予測クラス分布の移動平均とします。ラベルのないサンプルに対するモデルの予測は、真の周辺分布と一致するように OpenAI 研究员：数据不足时，如何实现监督学习に正規化されます。

周辺分布に一貫性がない場合、エントロピーの最小化は有用な目標ではないことに注意してください。さらに、ラベル付きデータとラベルなしデータのクラス分布が互いに一致するという仮定は実際には絶対的すぎるため、現実の設定では必ずしも正しいとは限りません。

2. 拡張アンカリング。ラベルのないサンプルを指定すると、最初に弱く強化された「アンカー」バージョンが生成され、次に CTAugment (Control Theory Augment) メソッドを使用して、K 個の強く強化されたバージョンの平均が計算されます。 CTAugment は、予測がネットワークの許容範囲内に留まるトークバックモデルの拡張バージョンのみをサンプリングします。

ReMixMatch 損失は次の項目で構成されます:

データ拡張とミックスアップ手法を適用する教師あり損失
データ拡張とミックスアップ手法を適用するが、ターゲットとして疑似ラベルを使用する教師なし損失
Mixup 法を使用しない、強力に強化された単一のラベルなし画像のクロスエントロピー損失
自己教師あり学習における回転損失 (回転損失)。

(2) DivideMix

Junnan Li らの 2020 年の論文「DivideMix: ノイズラベル学習を使用した半教師あり学習の実装」(DivideMix) : 学習 DivideMix 手法は、半教師あり学習とノイズのあるラベルを使用した学習を組み合わせた (半教師あり学習としてノイズのあるラベルを使用) で提案されています (ノイズのあるラベルを使用した学習、LNL)。混合ガウスモデル (GMM) を通じて各サンプルの損失分布をモデル化します。GMM は、トレーニングデータを、クリーンなサンプルを含むラベル付きデータセットとノイズのあるサンプルを含むラベルなしデータセットに動的に分割します。

Arazo らが 2019 年の論文「教師なしラベルノイズモデリングと損失補正」(教師なしラベルノイズモデリングと損失補正) で提案したアイデアによると、バイナリガウス混合モデルはクロスエントロピー損失に適合します。クリーンなサンプルは、ノイズの多いサンプルよりも早く損失が少なくなることが期待されます。平均値が小さいガウス混合モデルは、きれいなラベルのクラスタリングに対応し、ここでは c として示されます。混合ガウスモデル OpenAI 研究员：数据不足时，如何实现监督学习の事後確率 (つまり、サンプルがクリーンなサンプルセットに属する確率) がしきい値より大きい場合、サンプルはクリーンなサンプルとみなされ、それ以外の場合はノイズとみなされます。サンプル。

データクラスタリングのプロセスは共分割と呼ばれます。確証バイアスを回避するために、DividImax メソッドは、Double Q-Learning の仕組みと同様に、各ネットワークが他のネットワークからのデータセットの別々の部分を使用する 2 つの交差ネットワークを同時にトレーニングします。

OpenAI 研究员：数据不足时，如何实现监督学习

##図 14: DivideMix は 2 つのネットワークを個別にトレーニングして、確証バイアスを減らす。 2 つのネットワークは、協調的な分割、協調的なリファインメント、および協調的な推測を同時に実行します。 (画像出典: Junnan Li et al. の 2020 年の論文「DivideMix: using Noisy Label Learning to Implement Semi-supervised Learning」)

MixMatch と比較すると、DivideMix にはノイズの多いサンプルを処理するための共分割ステップが追加され、トレーニング中に次の改善が行われました。ラベルの共洗練: グラウンドトゥルースラベル

をネットワーク予測の組み合わせで線形化します。ここで、 OpenAI 研究员：数据不足时，如何实现监督学习は平均です。別のネットワークがクリーンなデータセットを生成する可能性のもとで、の複数の拡張バージョンが生成されます。

ラベル共推測: ラベルのないデータサンプルに対する 2 つのモデルの予測を平均します。

OpenAI 研究员：数据不足时，如何实现监督学习

# 図 15: DivideMix アルゴリズム。 (画像出典: Junnan Li et al. の 2020 年の論文「DivideMix: using Noisy Label Learning to Implement Semi-supervised Learning」)

(3) FixMatch

Sohn et al. が 2020 年の論文「FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence」で提案した FixMatch 手法では、弱い強化手法を使用してラベルのないサンプルを検出し、擬似ラベルを生成し、信頼性の高い予測のみを保持します。ここでは、弱い強調と信頼性の高いフィルタリングの両方が、高品質で信頼できる疑似ラベルターゲットの生成に役立ちます。次に、FixMatch は、大幅に強化されたサンプルを指定して、これらの疑似ラベルを予測します。

OpenAI 研究员：数据不足时，如何实现监督学习

# 図 16: FixMatch メソッドの動作の図。 (画像出典: Sohn et al. の 2020 年の論文「FixMatch: Simplifying semi-supervised learning using一貫性と信頼性」)

OpenAI 研究员：数据不足时，如何实现监督学习 ##ここで、

はラベルのないサンプルの擬似ラベルであり、

はと OpenAI 研究员：数据不足时，如何实现监督学习の相対的なサイズを決定するハイパーパラメーターです。弱い強化: 標準の翻訳と変換の強化。強力な強化: AutoAugment、Cutout、RandAugment、CTAugment などのデータ強化方法。

OpenAI 研究员：数据不足时，如何实现监督学习 # 図 17: 画像分類タスクにおける FixMatch および他のいくつかの半教師あり学習手法のパフォーマンス。 (画像出典: Sohn et al. の 2020 年の論文「FixMatch: Simplifying semi-supervised learning using一貫性と信頼性」)

FixMatch のアブレーション研究によると、

しきい値 τ を使用する場合、温度パラメーター T を使用しても、予測分布の鮮明化に大きな影響はありません。
Cutout と CTAugment は、モデルの良好なパフォーマンスを達成する上で重要な役割を果たす強力な拡張手法です。
ラベル推測で弱いブースティングではなく強いブースティングが使用されると、モデルはトレーニングの初期段階で発散します。弱い補強が破棄されると、モデルは推測されたラベルを過剰適合します。
疑似ラベル予測に強い強化ではなく弱い強化を使用すると、モデルのパフォーマンスが不安定になります。モデルのパフォーマンスを安定させるには、強力なデータ拡張が不可欠です。

7 強力な事前トレーニングとの組み合わせ

この方法では、自己教師あり学習を通じて、大規模な教師なしデータコーパス上でタスクに依存しないモデルを事前トレーニングします。次に、モデルは、小さなラベル付きデータセットを使用して下流タスクで微調整されます。これは、特に言語タスクでは一般的なパラダイムです。研究によると、モデルが半教師あり学習と事前トレーニングを組み合わせた場合、追加のゲインが得られることがわかっています。

Zophらの2020年の論文「事前トレーニングとセルフトレーニングの再考」では、セルフトレーニングが事前トレーニングよりもどれほど効果的であるかを研究しました。彼らの実験設定は、COCO の結果を改善するための事前トレーニングまたは自己トレーニングに ImageNet を使用することです。 ImageNet を自己トレーニングに使用する場合、ラベルは破棄され、ImageNet サンプルのみがラベルのないデータポイントとして使用されることに注意することが重要です。 He Kaiming らは、2018 年の論文「Re Thinking ImageNet Pre-training」で、下流のタスク (ターゲット検出など) が大きく異なる場合、ImageNet 分類の事前トレーニングの効果はあまり良くないことを証明しました。

OpenAI 研究员：数据不足时，如何实现监督学习

図 18: (a) データ拡張の結果 (弱いものから強いものへ) と (b)ラベルデータセットのサイズがオブジェクト検出パフォーマンスに与える影響。凡例: 「Rand Init」は、ランダムな重みで初期化されたモデルを表します。「ImageNet」は、ImageNet データセット上で 84.5% の Top-1 精度を持つ事前トレーニング済みモデルを使用して初期化されます。「ImageNet」は、Top-1 を使用して初期化されます。 ImageNet データセットの 1 の精度 -1 は、精度 86.9% の事前トレーニング済みモデルで初期化されます。 (画像出典: Zoph et al. の 2020 年の論文「Re Thinking Pre-training and Self-Training」)

この実験では、一連の興味深い発見が得られました:

下流タスクで使用できるラベル付きサンプルが増えるほど、事前トレーニングの効果は低くなります。事前トレーニングは低データモード (20%) では役立ちますが、高データの状況では中立または逆効果になります。
高データ/強力ブーストモードでは、事前トレーニングが逆効果であっても、セルフトレーニングは役に立ちます。
同じデータソースを使用する場合でも、セルフトレーニングは事前トレーニングよりもさらなる改善をもたらす可能性があります。
自己教師あり事前トレーニング (SimCLR による事前トレーニングなど) は、教師あり事前トレーニングと同様に、高データモードでのモデルのパフォーマンスに悪影響を及ぼします。
教師あり学習目標と自己教師あり学習目標を共同トレーニングすることは、トレーニング前タスクと下流タスクの間の不一致を解決するのに役立ちます。事前トレーニング、共同トレーニング、および自己トレーニングはすべて加算的です。
ノイズラベルまたは非ターゲットラベル (つまり、事前トレーニングされたラベルが下流のタスクラベルと一致していない) は、ターゲットの疑似ラベルよりも劣ります。
セルフトレーニングは、事前トレーニングされたモデルを微調整するよりも計算コストが高くなります。

Ting Chen et al. の 2020 年の論文「大きな自己教師ありモデルは強力な半教師あり学習者」では、3 段階の手順手法が提案されています。自己教師あり事前トレーニング、教師あり微調整、自己トレーニングの利点:

1. 教師なしまたは部分教師ありのメソッドを使用して、大規模なモデルをトレーニングします。

##2. いくつかのラベル付きサンプルでのモデルの微調整を監視する (大規模 (深くて広い) ニューラルの場合) モデルが大きくなるほど、少ないラベル付きサンプルでもパフォーマンスが向上するため、ネットワークが重要です。

3. 自己トレーニングで擬似ラベルを使用して、ラベルのないサンプルを抽出します。

a. このタスク固有の使用法では学習された表現の追加容量が必要ないため、大規模なモデルの知識を小規模なモデルに抽出できます。

b. 教師ネットワークを固定し、重みを OpenAI 研究员：数据不足时，如何实现监督学习としたときの蒸留損失の式は次のとおりです。

OpenAI 研究员：数据不足时，如何实现监督学习

図 19: 半教師あり学習フレームワークは、タスクに依存しない教師なし事前トレーニング (左) とタスク固有の自己トレーニングと抽出 (右) を通じて、ラベルなしのデータコーパスを使用します。 (画像出典: Ting Chen et al. の 2020 年の論文「大規模自己教師ありモデルは強力な半教師あり学習者」)

この論文の著者は、 ImageNet 分類タスクで実験しました。自己教師あり事前トレーニングでは、SimCLR を直接改良した SimCLRv2 を使用します。実証研究における彼らの観察は、2020 年に Zoph らによって提案された結果の一部を裏付けました:

#大規模なモデルのラベル学習はより効率的です;
#SimCLR のプロジェクトヘッドをより大きく、より深くすると、表現学習を改善できます。
ラベルなしデータを蒸留に使用すると、半教師あり学習を最適化できます。

OpenAI 研究员：数据不足时，如何实现监督学习

# 図 20: ImageNet 分類における SimCLRv2 半教師あり蒸留のパフォーマンスの比較。（画像出典：Ting Chen et al.の2020年の論文「大規模な自己教師ありモデルは強力な半教師あり学習者」）

最近の半教師あり学習者の分析を通じて-教師あり学習方法要約すると、多くの方法は確証バイアスを減らすことを目的としていることがわかります。

##クラスの重複を減らすために疑似ラベルの分布を明確にします。
# 引用が必要な場合は、次のように明記してください:

<span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">@</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">article</span>{<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">weng2021semi</span>,<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">title</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">=</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"Learning with not Enough Data Part 1: Semi-Supervised Learning"</span>,<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">author</span><span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">=</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"Weng, Lilian"</span>,

##一意のタグの数。
	は実際のタグのワンホット表現です。

#ラベル付きを含むデータセット全体サンプルとラベルのないサンプル。
は、ラベルなしのサンプルまたはラベル付きサンプルを表すことができます。
	#強化処理後ラベルサンプルまたはラベルサンプル。

# 損失と監督をそれぞれ表します。損失、監視なしの損失
## 監視なしの損失重量トレーニングステップの数が増えるにつれて増加します。
与えられた入力、条件付き確率データセットのラベル付け。
	#重み付き θ を使用して生成されたニューラルネットワークは、トレーニングされることが予想されるモデル。
	論理関数 f ベクトルの出力価値観の。
	#予測ラベル分布。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃距離平均二乗誤差、クロスエントロピー、KL 発散などの 2 つの分布間の関数。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃教師モデルの重みの移動平均加重ハイパーパラメータ。
	##α は混合のです。サンプル係数、
	##予測分布の温度をシャープにします。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃選択する適格な予測結果の信頼しきい値。