ホームページ > 記事 > テクノロジー周辺機器 > 教師なし学習の最も重要な 12 のアルゴリズムの紹介とそのユースケースの概要
教師なし学習 (教師なし学習) は、教師あり学習とは反対のもう 1 つの主流の機械学習手法です。教師なし学習にはデータのアノテーションはなく、データ自体のみが含まれます。
教師なし学習アルゴリズムにはいくつかの種類があります。最も重要なものを以下に 12 個示します:
k-means クラスタリングは、データを k 個のグループに分割する一般的なクラスタリング アルゴリズムです。
主成分分析 (PCA) は、データを低次元空間 (PCA) に射影する次元削減アルゴリズムです。データの次元を最も重要な特徴に削減するために使用できます。
サポート ベクター マシンは異常検出に使用できます (例)。異常検出アルゴリズムは、データ セット内の異常な点を検出するために使用されます。異常検出には多くの方法がありますが、そのほとんどは教師ありと教師なしに分類できます。教師ありメソッドにはラベル付きデータセットが必要ですが、教師なしメソッドには必要ありません。
教師なし異常検出アルゴリズムは通常、密度推定に基づいており、データ空間内の密集領域の外側にある点を見つけようとします。
簡単な方法は、各点の k 個の最近傍点までの平均距離を計算することです。隣接するポイントから非常に離れたポイントは、外れ値である可能性があります。
ローカル外れ値係数 (LOF) やサポート ベクター ドメイン記述 (SVDD) など、密度ベースの異常検出アルゴリズムも多数あります。これらのアルゴリズムは単純な k 最近傍法よりも複雑で、多くの場合、より微妙な異常を検出できます。ほとんどの異常検出アルゴリズムでは、アルゴリズムの異常に対する感度を制御するパラメーターを指定するなど、調整が必要です。パラメータが低すぎる場合、アルゴリズムは一部の異常を見逃す可能性があります。設定値が高すぎると、アルゴリズムによって誤検知 (正常な点が異常な点として識別される) が発生する可能性があります。
セグメンテーション アルゴリズムは画像を前景と背景に分割できます。
これらのアルゴリズムは、人間の監視を必要とせずに、データセットを意味のあるグループに自動的に分割できます。この分野でよく知られているアルゴリズムの 1 つは、k-means アルゴリズムです。このアルゴリズムは、グループ内の距離の二乗の合計を最小化することにより、データ ポイントを k 個のグループに分割します。
もう 1 つの一般的なセグメンテーション アルゴリズムは、平均シフト アルゴリズムです。このアルゴリズムは、各データ ポイントをそのローカル近傍の中心に向かって反復的に移動することによって機能します。平均シフトは外れ値に対して堅牢であり、不均一な密度のデータセットを処理できます。ただし、大規模なデータセットで実行すると、計算コストが高くなる可能性があります。
ガウス混合モデル (GMM) は、セグメンテーションに使用できる確率モデルです。以前は gmm をトレーニングするには多くの計算が必要でしたが、最近の研究の進歩により高速化されました。 gmm は非常に柔軟性があり、あらゆる種類のデータで使用できます。しかし、必ずしも最良の結果が得られるとは限りません。単純なデータ セットの場合は K-means が適していますが、複雑なデータ セットの場合は gmm の方が適しています。平均シフトはどちらの場合でも使用できますが、大規模なデータセットでは計算コストが高くなる可能性があります。
ウェーブレット変換は画像のノイズ除去に使用できます。ただし、ノイズは、データの破損、欠損値、外れ値など、さまざまな原因から発生する可能性があります。ノイズ除去アルゴリズムは、データ内のノイズの量を削減することにより、教師なし学習モデルの精度を向上させます。
主成分分析 (PCA)、独立成分分析 (ICA)、非負行列因数分解 (NMF) など、既存のノイズ除去アルゴリズムが多数あります。
リンク予測は、誰がソーシャル メンバーになるかを予測するために使用できます。ネットワーク上の友達。より一般的に使用されるリンク予測アルゴリズムの 1 つは、優先結合アルゴリズムです。これは、2 つのノードに多数の既存の接続がある場合、それらのノードが接続される可能性が高くなると予測します。
もう 1 つの一般的なリンク予測アルゴリズムは、ローカル パス アルゴリズムです。これは、2 つのノードが共通の隣接ノードを共有する場合、それらのノードが関連付けられる可能性が高くなると予測します。このアルゴリズムは「構造的等価性」の概念を捉えることができるため、生物学的ネットワークで頻繁に使用されます。
最後に、再起動付きランダム ウォーク アルゴリズムは、ネットワーク上のランダム ウォーカーをシミュレートし、ランダム ノードでウォーカーを再起動するリンク予測アルゴリズムでもあります [17]。次に、ウォーカーが特定のノードに到着する確率を使用して、2 つのノード間に接続が存在する可能性を測定します。
Q 学習は価値ベースの学習アルゴリズムの一例であり、実装が簡単で多用途です。しかし、Q 学習は最適ではない解決策に収束することがあります。もう 1 つの例は TD 学習です。これは Q 学習よりも計算量が多くなりますが、多くの場合、より良い解決策が得られます。
オートエンコーダーは、画像データセットから固有の画像を作成するために使用できる生成モデルです。機械学習における生成モデルは、一連のデータの統計的特性を捉えるモデルです。これらのモデルは、トレーニングされたデータと同様に、新しいデータを生成するために使用できます。
生成モデルは、教師なし学習、データ圧縮、ノイズ除去などのさまざまなタスクに使用されます。隠れマルコフ モデルやボルツマン マシンなど、生成モデルにはさまざまな種類があります。各モデルには長所と短所があり、さまざまなタスクに適しています。
隠れマルコフ モデルは逐次データのモデリングに優れていますが、ボルツマン マシンは高次元データのモデリングに優れています。生成モデルは、ラベルなしのデータでトレーニングすることにより、教師なし学習に使用できます。モデルがトレーニングされると、それを使用して新しいデータを生成できます。この生成されたデータは、人間または他の機械学習アルゴリズムによってラベル付けできます。このプロセスは、生成モデルが目的の出力に似たデータを生成することを学習するまで繰り返すことができます。
教師なし学習の場合、ランダム フォレストは類似したエントリのグループを見つけ、外れ値を特定し、圧縮することができます。データ。
ランダム フォレストは、教師ありタスクと教師なしタスクの両方において、他の一般的な機械学習アルゴリズム (サポート ベクター マシンなど) よりも優れたパフォーマンスを発揮することが証明されています。ランダム フォレストは、多くの特徴を持つ高次元データを処理できるため、教師なし学習の強力なツールです。また、過剰適合にも耐性があり、新しいデータに対して適切に一般化できることを意味します。
これは、密度、つまり各領域内の点の数に基づいています。 DBSCAN は、グループ内のポイントが近い場合はそのポイントをポイントし、離れている場合は無視します。 DBSCAN には、他のクラスタリング アルゴリズムと比較していくつかの利点があります。さまざまなサイズや形状のクラスターを検索できるため、ユーザーが事前にクラスターの数を指定する必要はありません。さらに、DBSCAN は外れ値の影響を受けないため、他のデータセットでは適切に表現されないデータを見つけるために使用できます。しかし、DBSCAN にはいくつかの欠点もあります。たとえば、非常にノイズの多いデータセットでは適切なクラスターを見つけるのが難しい場合があります。もう 1 つは、DBSCAN には密度しきい値が必要ですが、これはすべてのデータ セットに適用できるわけではないということです。
Apriori アルゴリズムは、最初の相関ルール マイニング アルゴリズムであり、最も古典的なアルゴリズムです。これは、まずデータ内で頻繁に使用される項目セットをすべて検索し、次にこれらの項目セットを使用してルールを生成することで機能します。
Apriori アルゴリズムを実装するにはさまざまな方法があり、さまざまなニーズに合わせてカスタマイズできます。たとえば、サポートおよび信頼度のしきい値を制御して、さまざまな種類のルールを見つけることができます。
Eclat アルゴリズムは、次の深さ優先アルゴリズムです。垂直データ表現。概念格子理論に基づいて、プレフィックスベースの同値関係を使用して、検索空間 (概念格子) がより小さな部分空間 (サブ概念格子) に分割されます。
以上が教師なし学習の最も重要な 12 のアルゴリズムの紹介とそのユースケースの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。