Heim > Artikel > Backend-Entwicklung > Detailliertes Beispiel, wie PHP die gleichen Datensätze in zwei großen Dateien findet
(Empfohlenes Tutorial: PHP-Video-Tutorial)
Wir können das Teilen-und-herrschen-Denken nutzen, um das Große auf das Kleine zu reduzieren. Wenn die Werte derselben Zeichenfolge nach dem Hashing gleich sind, können wir die Verwendung des Hash-Moduls in Betracht ziehen, um die Datensätze auf n Dateien zu verteilen. Wie bekomme ich dieses N? PHP verfügt über 100 MB Speicher und das Array kann etwa 1 Million Daten speichern. Wenn man also bedenkt, dass die Datensätze a und b nur 1 Milliarde Zeilen haben, muss n mindestens größer als 200 sein.
ini_set('memory_limit', '1M');
begrenzt werden. /** * 生成随机数填充文件 * Author: ClassmateLin * Email: classmatelin.site@gmail.com * Site: https://www.classmatelin.top * @param string $filename 输出文件名 * @param int $batch 按多少批次生成数据 * @param int $batchSize 每批数据的大小 */ function generate(string $filename, int $batch=1000, int $batchSize=10000) { for ($i=0; $i<$batch; $i++) { $str = ''; for ($j=0; $j<$batchSize; $j++) { $str .= rand($batch, $batchSize) . PHP_EOL; // 生成随机数 } file_put_contents($filename, $str, FILE_APPEND); // 追加模式写入文件 } } generate('a.txt', 10); generate('b.txt', 10);
a.txt
, b.txt
in n Dateien mit der Modulo-Methode. /** * 用hash取模方式将文件分散到n个文件中 * Author: ClassmateLin * Email: classmatelin.site@gmail.com * Site: https://www.classmatelin.top * @param string $filename 输入文件名 * @param int $mod 按mod取模 * @param string $dir 文件输出目录 */ function spiltFile(string $filename, int $mod=20, string $dir='files') { if (!is_dir($dir)){ mkdir($dir); } $fp = fopen($filename, 'r'); while (!feof($fp)){ $line = fgets($fp); $n = crc32(hash('md5', $line)) % $mod; // hash取模 $filepath = $dir . '/' . $n . '.txt'; // 文件输出路径 file_put_contents($filepath, $line, FILE_APPEND); // 追加模式写入文件 } fclose($fp); } spiltFile('a.txt'); spiltFile('b.txt');Führen Sie die Funktion
splitFile
aus und erhalten Sie 20 Dateien im Verzeichnis files
, wie unten gezeigt. ini_set('memory_limit', '1M');
来限制。
生成随机数用于填充文件:
/** * 查找一个文件中相同的记录输出到指定文件中 * Author: ClassmateLin * Email: classmatelin.site@gmail.com * Site: https://www.classmatelin.top * @param string $inputFilename 输入文件路径 * @param string $outputFilename 输出文件路径 */ function search(string $inputFilename, $outputFilename='output.txt') { $table = []; $fp = fopen($inputFilename, 'r'); while (!feof($fp)) { $line = fgets($fp); !isset($table[$line]) ? $table[$line] = 1 : $table[$line]++; // 未设置的值设1,否则自增 } fclose($fp); foreach ($table as $line => $count) { if ($count >= 2){ // 出现大于2次的则是相同的记录,输出到指定文件中 file_put_contents($outputFilename, $line, FILE_APPEND); } } }
将a.txt
, b.txt
通过hash取模的方式分割到n个文件中.
/** * 从给定目录下文件中分别找出相同记录输出到指定文件中 * Author: ClassmateLin * Email: classmatelin.site@gmail.com * Site: https://www.classmatelin.top * @param string $dirs 指定目录 * @param string $outputFilename 输出文件路径 */ function searchAll($dirs='files', $outputFilename='output.txt') { $files = scandir($dirs); foreach ($files as $file) { $filepath = $dirs . '/' . $file; if (is_file($filepath)){ search($filepath, $outputFilename); } } }
执行 splitFile
函数, 得到如下图 files
6. Doppelte Datensätze finden
Finden Sie die gleichen Datensätze in einer Datei:
Finden Sie die gleichen Datensätze in allen Dateien:
rrreeeNachdem das Platzproblem bei der Verarbeitung großer Dateien gelöst ist, wie kann man mit dem Zeitproblem umgehen, das eine einzelne Maschine nutzen kann? Die Multi-Core-CPU-Verarbeitung reicht nicht aus, sie wird über mehrere Server verarbeitet.
7. Vollständiger Code
rrreee(empfohlenes Tutorial:
PHP-Video-TutorialDas obige ist der detaillierte Inhalt vonDetailliertes Beispiel, wie PHP die gleichen Datensätze in zwei großen Dateien findet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!