suchen
HeimBackend-EntwicklungPHP-ProblemWie finde ich in PHP die gleichen Datensätze in zwei Dateien?

In diesem Artikel erfahren Sie, wie Sie mit PHP dieselben Datensätze in zwei Dateien finden. Es hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen. Ich hoffe, es wird für alle hilfreich sein.

Wie finde ich in PHP die gleichen Datensätze in zwei Dateien?

Einführung

Angenommen, zwei Dateien a und b mit x- bzw in ihnen ?

Gedanken

  • Die Hauptschwierigkeit bei der Bewältigung dieses Problems besteht darin, dass diese riesigen Daten nicht auf einmal in den Speicher eingelesen werden können.

  • Wenn dies nicht möglich ist gleichzeitig in den Speicher eingelesen werden, ist es dann möglich, es mehrmals zu berücksichtigen? Wenn es möglich ist, wie können wir denselben Wert berechnen, nachdem wir ihn mehrmals gelesen haben?

  • Wir können das Teilen-und-Herrsche-Denken nutzen, um das Große auf das Kleine zu reduzieren. Wenn die Werte derselben Zeichenfolge nach dem Hashing gleich sind, können wir erwägen, Hash-Modulo zu verwenden, um die Datensätze auf n Dateien zu verteilen. Wie bekomme ich dieses N? PHP verfügt über 100 MB Speicher und das Array kann etwa 1 Million Daten speichern. Wenn man also bedenkt, dass die Datensätze a und b nur 1 Milliarde Zeilen haben, muss n mindestens größer als 200 sein.

  • Zu diesem Zeitpunkt gibt es 200 Dateien. Die gleichen Datensätze müssen sich in derselben Datei befinden und jede Datei kann in den Speicher eingelesen werden. Dann können Sie nacheinander dieselben Datensätze in diesen 200 Dateien finden und sie dann in derselben Datei ausgeben. Das Endergebnis sind die gleichen Datensätze in den beiden Dateien a und b.

  • Es ist einfach, denselben Datensatz in einer kleinen Datei zu finden. Verwenden Sie einfach jede Zeile von Datensätzen als Schlüssel der Hash-Tabelle und zählen Sie die Anzahl der Vorkommen des Schlüssels >= 2.

Praktische Bedienung

1 Milliarde Dateien sind zu groß. Erreichen Sie einfach den praktischen Zweck.

Die Problemgröße wird reduziert auf: 1 MB Speicherlimit, a und b haben jeweils 100.000 Datensatzzeilen. Das Speicherlimit kann durch PHPs ini_set('memory_limit', '1M'); begrenzt werden. ini_set('memory_limit', '1M');来限制。

生成测试文件

生成随机数用于填充文件:

/**
 * 生成随机数填充文件
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输出文件名
 * @param int $batch 按多少批次生成数据
 * @param int $batchSize 每批数据的大小
 */
function generate(string $filename, int $batch=1000, int $batchSize=10000)
{
    for ($i=0; $i<$batch; $i++) {
        $str = &#39;&#39;;
        for ($j=0; $j<$batchSize; $j++) {
            $str .= rand($batch, $batchSize) . PHP_EOL; // 生成随机数
        }
        file_put_contents($filename, $str, FILE_APPEND);  // 追加模式写入文件
    }
}

generate(&#39;a.txt&#39;, 10);
generate(&#39;b.txt&#39;, 10);

分割文件

  • a.txt, b.txt通过hash取模的方式分割到n个文件中.

/**
 * 用hash取模方式将文件分散到n个文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输入文件名
 * @param int $mod 按mod取模
 * @param string $dir 文件输出目录
 */
function spiltFile(string $filename, int $mod=20, string $dir=&#39;files&#39;)
{
    if (!is_dir($dir)){
        mkdir($dir);
    }

    $fp = fopen($filename, &#39;r&#39;);

    while (!feof($fp)){
        $line = fgets($fp);
        $n = crc32(hash(&#39;md5&#39;, $line)) % $mod; // hash取模
        $filepath = $dir . &#39;/&#39; . $n . &#39;.txt&#39;;  // 文件输出路径
        file_put_contents($filepath, $line, FILE_APPEND); // 追加模式写入文件
    }

    fclose($fp);
}

spiltFile(&#39;a.txt&#39;);
spiltFile(&#39;b.txt&#39;);
  • 执行splitFile函数, 得到如下图files

    Testdatei generieren
Zufallszahlen generieren, um die Datei zu füllen:

/**
 * 查找一个文件中相同的记录输出到指定文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $inputFilename 输入文件路径
 * @param string $outputFilename 输出文件路径
 */
function search(string $inputFilename, $outputFilename=&#39;output.txt&#39;)
{
    $table = [];
    $fp = fopen($inputFilename, &#39;r&#39;);

    while (!feof($fp))
    {
        $line = fgets($fp);
        !isset($table[$line]) ? $table[$line] = 1 : $table[$line]++; // 未设置的值设1,否则自增
    }

    fclose($fp);

    foreach ($table as $line => $count)
    {
        if ($count >= 2){ // 出现大于2次的则是相同的记录,输出到指定文件中
            file_put_contents($outputFilename, $line, FILE_APPEND);
        }
    }
}

Datei aufteilen

  • Fügen Sie a.txt, b.txt durch Hash-Modulo ein in n Dateien.

  • /**
     * 从给定目录下文件中分别找出相同记录输出到指定文件中
     * Author: ClassmateLin
     * Email: classmatelin.site@gmail.com
     * Site: https://www.classmatelin.top
     * @param string $dirs 指定目录
     * @param string $outputFilename 输出文件路径
     */
    function searchAll($dirs=&#39;files&#39;, $outputFilename=&#39;output.txt&#39;)
    {
        $files = scandir($dirs);
    
        foreach ($files as $file)
        {
            $filepath = $dirs . &#39;/&#39; . $file;
            if (is_file($filepath)){
                search($filepath, $outputFilename);
            }
        }
    }
  • Führen Sie die Funktion splitFile aus und erhalten Sie 20 Dateien im Verzeichnis files, wie unten gezeigt.

Duplikate Datensätze finden
  • Jetzt müssen wir dieselben Datensätze in 20 Dateien finden. Tatsächlich müssen wir dieselben Datensätze in einer Datei finden und 20 Mal arbeiten.

Die gleichen Datensätze in einer Datei finden:

Die gleichen Datensätze in allen Dateien finden:
🎜🎜rrreee🎜🎜🎜Da nun das Platzproblem bei der Verarbeitung großer Dateien gelöst ist, was ist mit dem Zeitproblem? Eine einzelne Maschine kann es verarbeiten, indem es den Multi-Core der CPU nutzt. Wenn dies nicht ausreicht, kann es von mehreren Servern verarbeitet werden. 🎜🎜🎜🎜Vollständiger Code🎜rrreee🎜Empfohlenes Lernen: 🎜php-Video-Tutorial🎜🎜🎜

Das obige ist der detaillierte Inhalt vonWie finde ich in PHP die gleichen Datensätze in zwei Dateien?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:segmentfault. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Säure gegen Basisdatenbank: Unterschiede und wann sie jeweils verwendet werden.Säure gegen Basisdatenbank: Unterschiede und wann sie jeweils verwendet werden.Mar 26, 2025 pm 04:19 PM

Der Artikel vergleicht Säure- und Basisdatenbankmodelle, wobei die Eigenschaften und angemessene Anwendungsfälle beschrieben werden. Säure priorisiert die Datenintegrität und -konsistenz, geeignet für finanzielle und E-Commerce-Anwendungen, während sich die Basis auf die Verfügbarkeit konzentriert und

PHP Secure-Datei-Uploads: Verhindern von Sicherheitslücken im Zusammenhang mit Datei.PHP Secure-Datei-Uploads: Verhindern von Sicherheitslücken im Zusammenhang mit Datei.Mar 26, 2025 pm 04:18 PM

In dem Artikel wird das Sicherung von PHP -Dateien -Uploads erläutert, um Schwachstellen wie die Code -Injektion zu verhindern. Es konzentriert sich auf die Dateitypvalidierung, den sicheren Speicher und die Fehlerbehandlung, um die Anwendungssicherheit zu verbessern.

PHP -Eingabevalidierung: Best Practices.PHP -Eingabevalidierung: Best Practices.Mar 26, 2025 pm 04:17 PM

In Artikel werden Best Practices für die Validierung der PHP-Eingabe erörtert, um die Sicherheit zu verbessern und sich auf Techniken wie die Verwendung integrierter Funktionen, den Whitelist-Ansatz und die serverseitige Validierung zu konzentrieren.

PHP -API -Rate Begrenzung: Implementierungsstrategien.PHP -API -Rate Begrenzung: Implementierungsstrategien.Mar 26, 2025 pm 04:16 PM

In dem Artikel werden Strategien zur Implementierung der API-Rate in PHP erörtert, einschließlich Algorithmen wie Token-Bucket und Leaky Bucket sowie Bibliotheken wie Symfony/Rate-Limiter. Es deckt auch die Überwachung, die dynamischen Einstellungsgeschwindigkeiten und die Hand ab

PHP -Passwort Hashing: Password_hash und Passage_Verify.PHP -Passwort Hashing: Password_hash und Passage_Verify.Mar 26, 2025 pm 04:15 PM

Der Artikel beschreibt die Vorteile der Verwendung von Password_hash und Passage_verify in PHP zum Sichern von Passwörtern. Das Hauptargument besteht

OWASP Top 10 PHP: Beschreiben und mildern gemeinsame Schwachstellen.OWASP Top 10 PHP: Beschreiben und mildern gemeinsame Schwachstellen.Mar 26, 2025 pm 04:13 PM

In dem Artikel werden OWASP Top 10 Schwachstellen in PHP- und Minderungsstrategien erörtert. Zu den wichtigsten Problemen gehören die Injektion, die kaputte Authentifizierung und XSS mit empfohlenen Tools zur Überwachung und Sicherung von PHP -Anwendungen.

PHP XSS -Prävention: Wie man vor XSS schützt.PHP XSS -Prävention: Wie man vor XSS schützt.Mar 26, 2025 pm 04:12 PM

In dem Artikel werden Strategien erörtert, um XSS-Angriffe in PHP zu verhindern, sich auf die Eingabe von Eingaben, die Ausgabecodierung und die Verwendung von Bibliotheken und Frameworks für Sicherheitsförderungen zu konzentrieren.

PHP -Schnittstelle gegen abstrakte Klasse: Wann verwendet werden.PHP -Schnittstelle gegen abstrakte Klasse: Wann verwendet werden.Mar 26, 2025 pm 04:11 PM

In dem Artikel wird die Verwendung von Schnittstellen und abstrakten Klassen in PHP erörtert und konzentriert sich darauf, wann sie jeweils verwendet werden sollen. Schnittstellen definieren einen Vertrag ohne Implementierung, der für nicht verwandte Klassen und multiple Vererbung geeignet ist. Abstrakte Klassen liefern eine gemeinsame Funktion

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.