ホームページ >バックエンド開発 >C++ >C++ ビッグ データ開発におけるデータ重複排除の問題にどう対処するか?

C++ ビッグ データ開発におけるデータ重複排除の問題にどう対処するか?

WBOY
WBOYオリジナル
2023-08-25 17:33:391238ブラウズ

C++ ビッグ データ開発におけるデータ重複排除の問題にどう対処するか?

C ビッグ データ開発におけるデータ重複排除の問題に対処する方法?

はじめに: C ビッグ データ開発プロセスでは、データ重複排除が一般的な問題です。この記事では、C でビッグ データの重複排除の問題を効率的に処理するいくつかの方法を紹介し、対応するコード例を示します。

1. 重複排除にハッシュ テーブルを使用する

ハッシュ テーブルは、データをすばやく検索して保存できる一般的に使用されるデータ構造です。データの重複排除の問題では、ハッシュ テーブルを使用して、すでに出現したデータを保存できます。新しいデータが読み取られるたびに、まずそのデータがハッシュ テーブルに存在するかどうかを確認し、存在しない場合は、そのデータをハッシュに追加します。 table. ギリシャ語の表に追加し、すでに出現しているものとしてマークします。

#include <iostream>
#include <unordered_set>
#include <vector>

void duplicateRemoval(std::vector<int>& data) {
    std::unordered_set<int> hashSet;
    for (auto iter = data.begin(); iter != data.end();) {
        if (hashSet.find(*iter) != hashSet.end()) {
            iter = data.erase(iter);
        } else {
            hashSet.insert(*iter);
            ++iter;
        }
    }
}

int main() {
    std::vector<int> data = {1, 2, 3, 4, 5, 4, 3, 2, 1};
    duplicateRemoval(data);
    // 输出去重后的数据
    for (auto val : data) {
        std::cout << val << " ";
    }
    std::cout << std::endl;
    return 0;
}

2. 重複排除にビットマップを使用する

非常に大量のデータに直面する場合、ハッシュ テーブルを使用すると大量のメモリ領域が占有される可能性があります。この時点で、ビットマップを使用して重複排除操作を実行できます。ビットマップは、多数のブール値を表現できる非常にコンパクトなデータ構造です。各データの値をビットマップの添字として使用し、データが表示される位置を 1 としてマークできます。マークされた位置に遭遇した場合、データが繰り返されていることを意味し、元のデータから削除できます。

#include <iostream>
#include <vector>

void duplicateRemoval(std::vector<int>& data) {
    const int MAX_NUM = 1000000; // 假设数据的范围在0至1000000之间
    std::vector<bool> bitmap(MAX_NUM, false);
    for (auto iter = data.begin(); iter != data.end();) {
        if (bitmap[*iter]) {
            iter = data.erase(iter);
        } else {
            bitmap[*iter] = true;
            ++iter;
        }
    }
}

int main() {
    std::vector<int> data = {1, 2, 3, 4, 5, 4, 3, 2, 1};
    duplicateRemoval(data);
    // 输出去重后的数据
    for (auto val : data) {
        std::cout << val << " ";
    }
    std::cout << std::endl;
    return 0;
}

3. ソートを使用した重複排除

元のデータにメモリ制限がなく、データがソートされている場合は、ソート アルゴリズムを使用して重複排除を実行できます。並べ替えアルゴリズムでは、隣接する位置に同じデータを作成できます。その後、データを 1 回走査して重複データを削除するだけで済みます。

#include <iostream>
#include <algorithm>
#include <vector>

void duplicateRemoval(std::vector<int>& data) {
    data.erase(std::unique(data.begin(), data.end()), data.end());
}

int main() {
    std::vector<int> data = {1, 2, 3, 4, 5, 4, 3, 2, 1};
    std::sort(data.begin(), data.end());
    duplicateRemoval(data);
    // 输出去重后的数据
    for (auto val : data) {
        std::cout << val << " ";
    }
    std::cout << std::endl;
    return 0;
}

要約: C ビッグ データ開発では、データの重複排除が一般的な問題です。この記事では、ビッグ データの重複排除の問題を効率的に処理するための 3 つの方法を紹介し、対応するコード例を示します。実際の状況に応じて適切な方法を選択すると、データ処理の速度と効率が大幅に向上します。

以上がC++ ビッグ データ開発におけるデータ重複排除の問題にどう対処するか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。