ホームページ >バックエンド開発 >Python チュートリアル >相関ルール先験アルゴリズムの詳細な説明
#関連付けルールはデータ マイニングにおける重要なテクノロジであり、データ セット内の項目間の関連性を検出するために使用されます。相関ルール アプリオリ アルゴリズムは、相関ルールのマイニングに一般的に使用されるアルゴリズムです。相関ルール先験アルゴリズムの原理と手順については、以下で詳しく紹介します。関連付けルールはデータ マイニングにおける重要なテクノロジであり、データ セット内の項目間の関連付けを検出するために使用されます。アルゴリズムのステップ: 1. アルゴリズムは、すべての単一アイテムを含む候補アイテム セットを初期化する必要があります; 2. アルゴリズムは、頻繁に使用されるアイテム セットに基づいて候補アイテム セットを生成します; 3. アルゴリズムは候補アイテム セットをプルーニングします; 4. アルゴリズムは必要な候補アイテム セットが新しい頻出アイテム セットとして使用され、次の反復ラウンドに入ります。 5. 反復が終了すると、アルゴリズムは、設定されたしきい値を満たすすべての頻出アイテム セットを取得します。次に、頻度の高い項目セットに基づいて関連付けルールが生成されます。
アルゴリズム原理
相関ルール先験アルゴリズムは、サポートと信頼という 2 つの重要な概念に基づいています。サポートはデータ内に出現する項目セットの頻度を表し、信頼度はルールの信頼性を表します。このアルゴリズムの中心的な考え方は、反復を通じて頻繁に使用されるアイテム セットから候補アイテム セットを生成し、サポートと信頼度を計算し、最終的に設定されたしきい値を満たす相関ルールを見つけることです。アルゴリズムの手順
相関ルール先験アルゴリズムの手順は次のとおりです。 初期化まず、アルゴリズムには次のものが必要です。すべての単一の項目の候補項目のセットを含むアルゴリズムを初期化します。これらのアイテムセットは 1 アイテムセットと呼ばれます。次に、アルゴリズムはデータセットをスキャンし、各 1 項目セットのサポートを計算します。 候補アイテム セットの生成反復を通じて、アルゴリズムは頻繁に使用されるアイテム セットに基づいて候補アイテム セットを生成します。頻繁に使用されるアイテムセットとは、サポートが設定されたしきい値以上のアイテムセットを指します。現在の反復の頻出項目セットが k 項目セットであると仮定すると、k 項目セットの和集合を取得し、重複する項目を削除することによって、k 1 項目セットを生成できます。次に、アルゴリズムはデータセットをスキャンし、各 k 個の 1 項目セットのサポートを計算します。 プルーニング候補アイテム セットを生成した後、アルゴリズムは候補アイテム セットをプルーニングします。候補アイテムセットのサブセットが頻繁なアイテムセットではない場合、候補アイテムセットは頻繁なアイテムセットになることはできません。したがって、アルゴリズムは要件を満たさないこれらの候補アイテム セットを削除します。 頻繁な項目セットを更新するアルゴリズムは、枝刈り操作を通じて、要件を満たす候補項目セットを取得します。次に、アルゴリズムはこれらの候補アイテムセットを新しい頻繁なアイテムセットとして使用し、次の反復ラウンドに入ります。 関連付けルールの生成反復が終了すると、アルゴリズムは、設定されたしきい値を満たすすべての頻度の高い項目セットを取得します。次に、アルゴリズムは、頻繁に使用される項目セットに基づいて関連付けルールを生成します。相関ルールは、信頼度を計算することによって生成されます。頻繁に使用されるアイテムセットの場合、複数の関連付けルールを生成できます。関連付けルールは A->B の形式で、A と B はそれぞれ頻繁に使用されるアイテムセットのサブセットです。アルゴリズムの最適化
相関ルール先験アルゴリズムは、大規模なデータセットを処理するときに、計算の複雑さが高くなるという問題に直面する可能性があります。計算の複雑さを軽減するために、次の最適化手段を採用できます。 圧縮されたデータ セット データ セットを圧縮して、データ セット内の頻度の低いアイテム セットを削除できます。計算量の削減。 ハッシュ テーブルの使用 ハッシュ テーブルを使用して、頻繁に使用される項目セットを格納すると、検索の効率が向上します。 トランザクション データベースデータ セットはトランザクション データベースの形式に変換でき、各トランザクションはアイテム セットを表します。これにより、データセットがスキャンされる回数が減り、アルゴリズムの効率が向上します。 要約すると、相関ルール先験アルゴリズムは、相関ルールのマイニングに一般的に使用されるアルゴリズムです。反復により、頻出項目セットから候補項目セットが生成され、サポートと信頼度が計算され、最終的に設定されたしきい値を満たす相関ルールが見つかります。計算の複雑さを軽減するために、データセットの圧縮、ハッシュテーブルやトランザクションデータベースの使用などの最適化手段を使用できます。以上が相関ルール先験アルゴリズムの詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。