PHP で 2 つの大きなファイル内の同じレコードを見つけるにはどうすればよいですか?-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP で 2 つの大きなファイル内の同じレコードを見つけるにはどうすればよいですか?

慕斯

Jun 23, 2021 am 11:32 AM

php

データの x 行と y 行がそれぞれ含まれる 2 つのファイル a と b があるとします。ここで (x、y は両方とも 1 より大きい) 10 億 )、マシンのメモリは 100M に制限されています。同じレコードを見つけるにはどうすればよいですか? この問題を解決する際の主な困難は、この膨大なデータを一度にメモリに読み込むことができないことです。メモリに読み込めない場合は、一度に、複数回考えることができますか? 毛織物?一緒に議論しましょう

はじめに

それぞれ x 行と y 行のデータを含む 2 つのファイル a と b が与えられます。ここで (x、y はどちらも大きいです) 10 億以上)、マシンのメモリ制限は 100M、同じレコードを見つけるにはどうすればよいでしょうか?

考察

対処する際の主な困難この問題は、この大量のデータを一度にメモリに読み込むことはできません。
#一度にメモリに読み込むことができない場合、複数回考えることができますか?可能であれば、複数回読み取った後、同じ値を計算するにはどうすればよいですか?
分割統治思考を使用して、大きなものを小さなものに減らすことができます。ハッシュ後の同じ文字列の値が等しい場合は、ハッシュモジュロを使用してレコードを n 個のファイルに分散することを検討できます。これを取得するにはどうすればよいですか? PHP には 100M のメモリがあり、配列には約 100 万のデータを格納できるため、レコード a と b の行数が 10 億行しかないことを考慮すると、n は少なくとも 200 より大きくなければなりません。
現時点では 200 個のファイルがあります。同じレコードが同じファイル内に存在する必要があり、各ファイルはメモリに読み込むことができます。次に、これら 200 個のファイルから同じレコードを順番に検索し、同じファイルに出力すると、最終的に 2 つのファイル a と b に同じレコードが含まれます。
小さなファイル内で同じレコードを見つけるのは非常に簡単です。レコードの各行をハッシュテーブルのキーとして使用し、キーの出現回数 >= 2 を数えます。。

実際の操作

10 億ファイルは大きすぎます。実際の操作は時間の無駄です。実用的な目的を達成するだけです。

問題のサイズは次のように削減されます: 1M メモリ制限、a と b にはそれぞれ 100,000 行のレコードがあります。メモリ制限は PHP の ini_set('memory_limit', '1M');# によって制限できます。 ##。

テストファイルの生成

ファイルを満たす乱数の生成:

/**
 * 生成随机数填充文件
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输出文件名
 * @param int $batch 按多少批次生成数据
 * @param int $batchSize 每批数据的大小
 */function generate(string $filename, int $batch=1000, int $batchSize=10000){
    for ($i=0; $i<$batch; $i++) {
        $str = &#39;&#39;;
        for ($j=0; $j<$batchSize; $j++) {
            $str .= rand($batch, $batchSize) . PHP_EOL; // 生成随机数
        }
        file_put_contents($filename, $str, FILE_APPEND);  // 追加模式写入文件
    }}generate(&#39;a.txt&#39;, 10);generate(&#39;b.txt&#39;, 10);

ファイルの分割

##ハッシュ係数を使用して

、b.txt を n 個のファイルに分割します。

/**
 * 用hash取模方式将文件分散到n个文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输入文件名
 * @param int $mod 按mod取模
 * @param string $dir 文件输出目录
 */
function spiltFile(string $filename, int $mod=20, string $dir=&#39;files&#39;)
{
    if (!is_dir($dir)){
        mkdir($dir);
    }

    $fp = fopen($filename, &#39;r&#39;);

    while (!feof($fp)){
        $line = fgets($fp);
        $n = crc32(hash(&#39;md5&#39;, $line)) % $mod; // hash取模
        $filepath = $dir . &#39;/&#39; . $n . &#39;.txt&#39;;  // 文件输出路径
        file_put_contents($filepath, $line, FILE_APPEND); // 追加模式写入文件
    }

    fclose($fp);
}

spiltFile(&#39;a.txt&#39;);
spiltFile(&#39;b.txt&#39;);

splitFile

関数を使用して、以下に示すように files ディレクトリに 20 個のファイルを取得します。

重複レコードの検索

次に、20 個のファイルで同じレコードを検索する必要があります。実際には、1 つのファイルで同じレコードを検索する必要があります。 20回動作します。

#ファイル内の同じレコードの検索:

/**
 * 查找一个文件中相同的记录输出到指定文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $inputFilename 输入文件路径
 * @param string $outputFilename 输出文件路径
 */
function search(string $inputFilename, $outputFilename=&#39;output.txt&#39;)
{
    $table = [];
    $fp = fopen($inputFilename, &#39;r&#39;);

    while (!feof($fp))
    {
        $line = fgets($fp);
        !isset($table[$line]) ? $table[$line] = 1 : $table[$line]++; // 未设置的值设1，否则自增
    }

    fclose($fp);

    foreach ($table as $line => $count)
    {
        if ($count >= 2){ // 出现大于2次的则是相同的记录，输出到指定文件中
            file_put_contents($outputFilename, $line, FILE_APPEND);
        }
    }
}

#すべてのファイル内の同じレコードの検索:

/**
 * 从给定目录下文件中分别找出相同记录输出到指定文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $dirs 指定目录
 * @param string $outputFilename 输出文件路径
 */
function searchAll($dirs=&#39;files&#39;, $outputFilename=&#39;output.txt&#39;)
{
    $files = scandir($dirs);

    foreach ($files as $file)
    {
        $filepath = $dirs . &#39;/&#39; . $file;
        if (is_file($filepath)){
            search($filepath, $outputFilename);
        }
    }
}

##大容量ファイル処理の容量問題はここで解決しましたが、時間の問題はどうすればよいでしょうか? CPU のマルチコアを利用すれば 1 台のマシンで処理できます。複数のサーバーで処理されます。
完全なコード
```
推奨学習:「
```

」

以上がPHP で 2 つの大きなファイル内の同じレコードを見つけるにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はCSDNで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

PHPの現在のステータス：Web開発動向を見てくださいApr 13, 2025 am 12:20 AM

PHPは、現代のWeb開発、特にコンテンツ管理とeコマースプラットフォームで依然として重要です。 1）PHPには、LaravelやSymfonyなどの豊富なエコシステムと強力なフレームワークサポートがあります。 2）パフォーマンスの最適化は、Opcacheとnginxを通じて達成できます。 3）PHP8.0は、パフォーマンスを改善するためにJITコンパイラを導入します。 4）クラウドネイティブアプリケーションは、DockerおよびKubernetesを介して展開され、柔軟性とスケーラビリティを向上させます。

PHP対その他の言語：比較Apr 13, 2025 am 12:19 AM

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHP対Python：コア機能と機能Apr 13, 2025 am 12:16 AM

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHP：Web開発の重要な言語Apr 13, 2025 am 12:08 AM

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting（）やvar_dump（）などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHP：多くのウェブサイトの基礎Apr 13, 2025 am 12:07 AM

PHPが多くのWebサイトよりも優先テクノロジースタックである理由には、その使いやすさ、強力なコミュニティサポート、広範な使用が含まれます。 1）初心者に適した学習と使用が簡単です。 2）巨大な開発者コミュニティと豊富なリソースを持っています。 3）WordPress、Drupal、その他のプラットフォームで広く使用されています。 4）Webサーバーとしっかりと統合して、開発の展開を簡素化します。

誇大広告を超えて：今日のPHPの役割の評価Apr 12, 2025 am 12:17 AM

PHPは、特にWeb開発の分野で、最新のプログラミングで強力で広く使用されているツールのままです。 1）PHPは使いやすく、データベースとシームレスに統合されており、多くの開発者にとって最初の選択肢です。 2）動的コンテンツ生成とオブジェクト指向プログラミングをサポートし、Webサイトを迅速に作成および保守するのに適しています。 3）PHPのパフォーマンスは、データベースクエリをキャッシュおよび最適化することで改善でき、その広範なコミュニティと豊富なエコシステムにより、今日のテクノロジースタックでは依然として重要になります。

PHPの弱い参照は何ですか、そしていつ有用ですか？Apr 12, 2025 am 12:13 AM

PHPでは、弱い参照クラスを通じて弱い参照が実装され、ガベージコレクターがオブジェクトの回収を妨げません。弱い参照は、キャッシュシステムやイベントリスナーなどのシナリオに適しています。オブジェクトの生存を保証することはできず、ごみ収集が遅れる可能性があることに注意する必要があります。

PHPで__invoke Magicメソッドを説明してください。Apr 12, 2025 am 12:07 AM

\ _ \ _ Invokeメソッドを使用すると、オブジェクトを関数のように呼び出すことができます。 1。オブジェクトを呼び出すことができるように\ _ \ _呼び出しメソッドを定義します。 2。$ obj（...）構文を使用すると、PHPは\ _ \ _ Invokeメソッドを実行します。 3。ロギングや計算機、コードの柔軟性の向上、読みやすさなどのシナリオに適しています。

See all articles