ホームページ > 記事 > テクノロジー周辺機器 > 弱い教師あり学習におけるラベル欠落の問題
弱教師あり学習におけるラベル欠落の問題とコード例
はじめに:
機械学習の分野では、教師あり学習が一般的に使用されています。学習方法。ただし、大規模なデータセットに対して教師あり学習を実行する場合、データに手動でラベルを付けるのに必要な時間と労力は膨大です。そこで、弱教師あり学習が登場しました。弱い教師あり学習とは、トレーニング データ内の一部のサンプルのみが正確なラベルを持ち、ほとんどのサンプルが曖昧または不完全に正確なラベルしか持たないことを意味します。ただし、ラベル欠落の問題は、弱教師あり学習における重要な課題です。
1. ラベル欠落問題の背景
実際のアプリケーションでは、大規模なデータセットのラベル付けのコストは通常非常に高くなります。医用画像認識、自然言語処理、コンピュータビジョンなどの分野では、データ量が膨大で、専門知識が必要であり、人材にも限界があるため、すべてのデータにラベルを付けることは非現実的です。したがって、ラベルの欠落の問題を解決するには、弱教師あり学習方法が必要です。
2. ラベル欠落の問題の解決策
マルチインスタンス学習は、一般的に使用される弱教師あり学習です。学習方法 。各サンプルが複数のインスタンスで構成され、そのうちの一部のみが正確なラベルを持つことを前提としています。 MIL は主に、インスタンスの選択と分類子のトレーニングという 2 つのステップで構成されます。インスタンスの選択では、ラベル付けするサンプルを最もよく表すインスタンスを選択することで、ラベルの欠落の問題を解決します。
サンプル コード:
import numpy as np from sklearn.svm import SVC from sklearn.metrics import accuracy_score # 数据准备 X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) # 输入数据 Y_weak = np.array([0, 1, 1, 0]) # 弱标签,只有部分样本有标签 # 实例选择 Y_strong = np.zeros_like(Y_weak) # 强标签 for i, label in enumerate(np.unique(Y_weak)): indices = np.where(Y_weak == label)[0] # 找到标签为label的样本 X_sub = X[indices, :] # 获取对应样本的特征 Y_sub = Y_weak[indices] # 获取对应样本的弱标签 # 训练分类器 clf = SVC(probability=True) clf.fit(X_sub, Y_sub) # 预测所有样本 Y_pred = clf.predict_proba(X)[:, 1] # 更新强标签 Y_strong = np.where(Y_pred > 0.5, 1, Y_strong) # 计算准确率 accuracy = accuracy_score(Y_weak, Y_strong) print("准确率:", accuracy)
クラスタリング アルゴリズムは、データ セットをさまざまなカテゴリに分割することで、ラベルの欠落の問題を解決します。クラスタリングのアイデアに基づく弱教師あり学習方法には、通常、クラスタリングとラベル伝播という 2 つのステップが含まれます。
サンプルコード:
import numpy as np from sklearn.cluster import KMeans from sklearn.metrics import accuracy_score # 数据准备 X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) # 输入数据 Y_weak = np.array([0, 1, 1, 0]) # 弱标签,只有部分样本有标签 # 聚类 kmeans = KMeans(n_clusters=2) kmeans.fit(X) # 标签传播 Y_strong = kmeans.predict(X) # 计算准确率 accuracy = accuracy_score(Y_weak, Y_strong) print("准确率:", accuracy)
3. 概要
ラベルの欠落の問題は、弱教師あり学習における重要な課題です。この記事では、ラベル欠落の問題を解決するための 2 つの方法 (マルチインスタンス学習とクラスタリングの考え方に基づく方法) を紹介し、対応するサンプル コードを示します。アプリケーションシナリオが異なれば適用する方法も異なるため、特定の状況に応じてタグ欠落の問題を解決するには適切な方法を選択する必要があります。弱教師あり学習の開発により、大規模なデータセットを適用するためのより柔軟で効率的なソリューションが提供されます。
以上が弱い教師あり学習におけるラベル欠落の問題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。