recherche
Maisondéveloppement back-endProblème PHPComment retrouver les mêmes enregistrements dans deux fichiers en PHP ?

Cet article vous présentera comment trouver les mêmes enregistrements dans deux fichiers en utilisant PHP. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. J'espère qu'il sera utile à tout le monde.

Comment retrouver les mêmes enregistrements dans deux fichiers en PHP ?

Introduction

Étant donné deux fichiers a et b, avec respectivement x et y lignes de données, où (x, y sont tous deux supérieurs à 10 milliards), la mémoire de la machine est limitée à 100 Mo, comment retrouver les mêmes enregistrements ?

Idées

  • Comment résoudre ce problème La principale difficulté est que cette quantité massive de données ne peut pas être lue dans la mémoire en une seule fois

  • Si elle ne peut pas être lue dans la mémoire en une seule fois, est-ce possible. être considéré plusieurs fois ? Si c’est possible, comment pouvons-nous calculer la même valeur après l’avoir lue plusieurs fois ?

  • Nous pouvons utiliser la pensée diviser pour régner pour réduire le grand au petit. Si les valeurs d'une même chaîne sont égales après hachage, alors on peut envisager d'utiliser le hachage modulo pour disperser les enregistrements dans n fichiers. Comment obtenir ce n? PHP dispose de 100 Mo de mémoire et le tableau peut stocker environ 1 million de données. Ainsi, étant donné que les enregistrements a et b n'ont qu'un milliard de lignes, n doit être au moins supérieur à 200.

  • Il y a actuellement 200 fichiers. Les mêmes enregistrements doivent être dans le même fichier, et chaque fichier peut être lu dans la mémoire. Ensuite, vous pouvez rechercher les mêmes enregistrements dans ces 200 fichiers dans l'ordre, puis les exporter dans le même fichier. Le résultat final est les mêmes enregistrements dans les deux fichiers a et b.

  • Il est très simple de retrouver le même enregistrement dans un petit fichier. Utilisez chaque ligne d'enregistrements comme clé de la table de hachage, et comptez le nombre d'occurrences de la clé >=. 2.

Opération pratique

1 milliard de fichiers sont trop gros L'opération pratique est une perte de temps.

La taille du problème est réduite à : limite de mémoire de 1 Mo, a et b ont chacun 100 000 lignes d'enregistrements. La limite de mémoire peut être limitée à l'aide de ini_set('memory_limit', '1M'); de PHP.

Générer un fichier de test

Générer des nombres aléatoires pour remplir le fichier :

/**
 * 生成随机数填充文件
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输出文件名
 * @param int $batch 按多少批次生成数据
 * @param int $batchSize 每批数据的大小
 */
function generate(string $filename, int $batch=1000, int $batchSize=10000)
{
    for ($i=0; $i<$batch; $i++) {
        $str = &#39;&#39;;
        for ($j=0; $j<$batchSize; $j++) {
            $str .= rand($batch, $batchSize) . PHP_EOL; // 生成随机数
        }
        file_put_contents($filename, $str, FILE_APPEND);  // 追加模式写入文件
    }
}

generate(&#39;a.txt&#39;, 10);
generate(&#39;b.txt&#39;, 10);

Diviser le fichier

  • Modifier a.txt, b.txtDivisé en n fichiers par module de hachage.

/**
 * 用hash取模方式将文件分散到n个文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输入文件名
 * @param int $mod 按mod取模
 * @param string $dir 文件输出目录
 */
function spiltFile(string $filename, int $mod=20, string $dir=&#39;files&#39;)
{
    if (!is_dir($dir)){
        mkdir($dir);
    }

    $fp = fopen($filename, &#39;r&#39;);

    while (!feof($fp)){
        $line = fgets($fp);
        $n = crc32(hash(&#39;md5&#39;, $line)) % $mod; // hash取模
        $filepath = $dir . &#39;/&#39; . $n . &#39;.txt&#39;;  // 文件输出路径
        file_put_contents($filepath, $line, FILE_APPEND); // 追加模式写入文件
    }

    fclose($fp);
}

spiltFile(&#39;a.txt&#39;);
spiltFile(&#39;b.txt&#39;);
  • Exécutez la fonction splitFile pour obtenir 20 fichiers dans le répertoire files comme indiqué ci-dessous le document .

Recherche des enregistrements en double

Nous devons maintenant trouver les mêmes enregistrements dans 20 fichiers. En fait, nous devons trouver les mêmes enregistrements dans un seul fichier et opérer 20 fois. .

  • Trouver le même enregistrement dans un fichier :

/**
 * 查找一个文件中相同的记录输出到指定文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $inputFilename 输入文件路径
 * @param string $outputFilename 输出文件路径
 */
function search(string $inputFilename, $outputFilename=&#39;output.txt&#39;)
{
    $table = [];
    $fp = fopen($inputFilename, &#39;r&#39;);

    while (!feof($fp))
    {
        $line = fgets($fp);
        !isset($table[$line]) ? $table[$line] = 1 : $table[$line]++; // 未设置的值设1,否则自增
    }

    fclose($fp);

    foreach ($table as $line => $count)
    {
        if ($count >= 2){ // 出现大于2次的则是相同的记录,输出到指定文件中
            file_put_contents($outputFilename, $line, FILE_APPEND);
        }
    }
}
  • Trouver le même enregistrement dans tous les fichiers :

/**
 * 从给定目录下文件中分别找出相同记录输出到指定文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $dirs 指定目录
 * @param string $outputFilename 输出文件路径
 */
function searchAll($dirs=&#39;files&#39;, $outputFilename=&#39;output.txt&#39;)
{
    $files = scandir($dirs);

    foreach ($files as $file)
    {
        $filepath = $dirs . &#39;/&#39; . $file;
        if (is_file($filepath)){
            search($filepath, $outputFilename);
        }
    }
}
  • Le problème d'espace du traitement des fichiers volumineux a été résolu jusqu'à présent, alors comment résoudre le problème de temps Une seule machine peut utiliser le traitement multicœur du ? Le processeur, s'il ne suffit pas, utilisez plusieurs serveurs.

Code complet

Apprentissage recommandé : Tutoriel vidéo php

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Base de données d'acide vs de base: différences et quand utiliser chacun.Base de données d'acide vs de base: différences et quand utiliser chacun.Mar 26, 2025 pm 04:19 PM

L'article compare les modèles de base de données d'acide et de base, détaillant leurs caractéristiques et les cas d'utilisation appropriés. L'acide priorise l'intégrité et la cohérence des données, adaptées aux applications financières et de commerce électronique, tandis que Base se concentre sur la disponibilité et

Téléchargements de fichiers sécurisés PHP: prévention des vulnérabilités liées au fichier.Téléchargements de fichiers sécurisés PHP: prévention des vulnérabilités liées au fichier.Mar 26, 2025 pm 04:18 PM

L'article traite de la sécurisation des téléchargements de fichiers PHP pour éviter les vulnérabilités comme l'injection de code. Il se concentre sur la validation du type de fichier, le stockage sécurisé et la gestion des erreurs pour améliorer la sécurité de l'application.

Validation d'entrée PHP: meilleures pratiques.Validation d'entrée PHP: meilleures pratiques.Mar 26, 2025 pm 04:17 PM

L'article traite des meilleures pratiques pour la validation des entrées PHP pour améliorer la sécurité, en se concentrant sur des techniques telles que l'utilisation de fonctions intégrées, une approche de liste blanche et une validation côté serveur.

Limitation du taux de l'API PHP: stratégies de mise en œuvre.Limitation du taux de l'API PHP: stratégies de mise en œuvre.Mar 26, 2025 pm 04:16 PM

L'article traite des stratégies de mise en œuvre de la limitation du taux d'API en PHP, y compris des algorithmes comme un godet de jeton et un seau qui fuit, et en utilisant des bibliothèques comme Symfony / Rate-Limiter. Il couvre également la surveillance, l'ajustement dynamiquement des limites de taux et la main

Hachage de mot de passe PHP: Password_Hash et Password_verify.Hachage de mot de passe PHP: Password_Hash et Password_verify.Mar 26, 2025 pm 04:15 PM

L'article traite des avantages de l'utilisation de mot de passe_hash et de mot de passe_verify dans PHP pour sécuriser les mots de passe. L'argument principal est que ces fonctions améliorent la protection des mots de passe grâce à la génération automatique de sel, à de forts algorithmes de hachage et à

OWASP Top 10 PHP: Décrivez et atténue les vulnérabilités communes.OWASP Top 10 PHP: Décrivez et atténue les vulnérabilités communes.Mar 26, 2025 pm 04:13 PM

L'article traite des 10 meilleures vulnérabilités de l'OWASP dans les stratégies PHP et d'atténuation. Les problèmes clés incluent l'injection, l'authentification brisée et les XS, avec des outils recommandés pour surveiller et sécuriser les applications PHP.

PHP XSS Prévention: comment protéger contre XSS.PHP XSS Prévention: comment protéger contre XSS.Mar 26, 2025 pm 04:12 PM

L'article traite des stratégies pour empêcher les attaques XSS en PHP, en se concentrant sur la désinfection des entrées, le codage de sortie et l'utilisation de bibliothèques et de cadres améliorant la sécurité.

Interface PHP vs classe abstraite: quand utiliser chacun.Interface PHP vs classe abstraite: quand utiliser chacun.Mar 26, 2025 pm 04:11 PM

L'article traite de l'utilisation des interfaces et des classes abstraites en PHP, en se concentrant sur le moment de l'utiliser. Les interfaces définissent un contrat sans mise en œuvre, adapté aux classes non apparentées et à l'héritage multiple. Les cours abstraits fournissent une fusion commune

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel