Problème de fusion externe – Guide complet pour les Gophers-Golang-php.cn

Maison

développement back-end

Golang

Problème de fusion externe – Guide complet pour les Gophers

Susan Sarandon

Jan 12, 2025 am 08:09 AM

Le problème du tri externe est un sujet bien connu dans les cours d'informatique et est souvent utilisé comme outil pédagogique. Cependant, il est rare de rencontrer quelqu'un qui a réellement implémenté une solution à ce problème dans le code pour un scénario technique spécifique, sans parler des optimisations requises. Relever ce défi lors d'un hackathon m'a inspiré pour écrire cet article.

Voici donc la tâche du hackathon :

Vous disposez d'un simple fichier texte avec des adresses IPv4. Une ligne est une adresse, ligne par ligne :

145.67.23.4
8.34.5.23
89.54.3.124
89.54.3.124
3.45.71.5
...

Le fichier est de taille illimitée et peut occuper des dizaines et des centaines de gigaoctets.

Vous devez calculer le nombre d'adresses uniques dans ce fichier en utilisant le moins de mémoire et de temps possible. Il existe un algorithme "naïf" pour résoudre ce problème (lire ligne par ligne, mettre les lignes dans HashSet). C'est mieux si votre implémentation est plus compliquée et plus rapide que cet algorithme naïf.

Un fichier de 120 Go avec 8 milliards de lignes a été soumis pour analyse.

Il n'y avait aucune exigence spécifique concernant la vitesse d'exécution du programme. Cependant, après avoir rapidement examiné les informations disponibles sur le sujet en ligne, j'ai conclu qu'un temps d'exécution acceptable pour du matériel standard (comme un PC domestique) serait d'environ une heure ou moins.

Pour des raisons évidentes, le fichier ne peut être lu et traité dans son intégralité que si le système dispose d'au moins 128 Go de mémoire disponible. Mais travailler avec des morceaux et fusionner est-il inévitable ?

Si vous n'êtes pas à l'aise avec la mise en œuvre d'une fusion externe, je vous suggère d'abord de vous familiariser avec une solution alternative acceptable, bien que loin d'être optimale.

Idée

Créez un bitmap 2^32 bits. Il s'agit d'un tableau uint64, puisque uint64 contient 64 bits.
Pour chaque IP :

Analyser l'adresse de la chaîne en quatre octets : A.B.C.D.
Traduisez-le en un nombre ipNum = (A
Définissez le bit correspondant dans le bitmap.

1. Après avoir lu toutes les adresses, parcourez le bitmap et comptez le nombre de bits définis.

Avantages :
Détection d'unicité très rapide : mise à 1 du bit O(1), pas besoin de vérifier, il suffit de le mettre.

Aucune surcharge pour le hachage, le tri, etc.
Inconvénients :
Consommation de mémoire énorme (512 Mo pour tout l'espace IPv4, sans tenir compte de la surcharge).

Si le fichier est volumineux, mais plus petit que l'espace IPv4 complet, cela peut quand même être avantageux en termes de temps, mais pas toujours raisonnable en termes de mémoire.

package main

import (
    "bufio"
    "fmt"
    "os"
    "strconv"
    "strings"
    "math/bits"
)

//  Parse IP address "A.B.C.D"  => uint32 number
func ipToUint32(ipStr string) (uint32, error) {
    parts := strings.Split(ipStr, ".")
    if len(parts) != 4 {
        return 0, fmt.Errorf("invalid IP format")
    }

    var ipNum uint32
    for i := 0; i  255 {
            return 0, fmt.Errorf("invalid IP octet: %v", parts[i])
        }
        ipNum = (ipNum 



<p>Cette approche est simple et fiable, ce qui en fait une option viable lorsqu'aucune alternative n'est disponible. Cependant, dans un environnement de production, en particulier lorsque l'on vise des performances optimales, il est essentiel de développer une solution plus efficace.</p><p>Ainsi, notre approche implique le découpage, le tri de fusion interne et la déduplication.</p>

<h2>
  
  
  Le principe de parallélisation dans le tri externe
</h2>

<ol>
<li><strong>Lecture et transformation de morceaux :</strong></li>
</ol>

<p>Le fichier est divisé en parties relativement petites (morceaux), disons quelques centaines de mégaoctets ou quelques gigaoctets. Pour chaque morceau :</p>

Une goroutine (ou un pool de goroutines) est lancée, qui lit le morceau, analyse les adresses IP en nombres et les stocke dans un tableau temporaire en mémoire.
Ensuite, ce tableau est trié (par exemple, avec le tri standard.Slice), et le résultat, après suppression des doublons, est écrit dans un fichier temporaire.

Étant donné que chaque partie peut être traitée indépendamment, vous pouvez exécuter plusieurs de ces gestionnaires en parallèle, si vous disposez de plusieurs cœurs de processeur et d'une bande passante disque suffisante. Cela vous permettra d'utiliser les ressources le plus efficacement possible.

Fusionner les morceaux triés (étape de fusion) :

Une fois que tous les morceaux sont triés et écrits dans des fichiers temporaires, vous devez fusionner ces listes triées en un seul flux trié, en supprimant les doublons :

Semblable au processus de tri externe, vous pouvez paralléliser la fusion en divisant plusieurs fichiers temporaires en groupes, en les fusionnant en parallèle et en réduisant progressivement le nombre de fichiers.
Cela laisse un grand flux de sortie trié et dédupliqué, à partir duquel vous pouvez calculer le nombre total d'adresses IP uniques.

Avantages de la parallélisation :

Utilisation de plusieurs cœurs de processeur :
Le tri monothread d'un très grand tableau peut être lent, mais si vous disposez d'un processeur multicœur, vous pouvez trier plusieurs morceaux en parallèle, accélérant ainsi le processus plusieurs fois.
Équilibrage de charge :

Si la taille des morceaux est choisie judicieusement, chaque morceau peut être traité dans à peu près le même laps de temps. Si certains morceaux sont plus gros/plus petits ou plus complexes, vous pouvez répartir dynamiquement leur traitement sur différentes goroutines.

Optimisation des E/S :

La parallélisation permet de lire un morceau pendant qu'un autre est trié ou écrit, réduisant ainsi le temps d'inactivité.

Conclusion

Le tri externe se prête naturellement à la parallélisation via le regroupement de fichiers. Cette approche permet une utilisation efficace des processeurs multicœurs et minimise les goulots d'étranglement des E/S, ce qui se traduit par un tri et une déduplication nettement plus rapides par rapport à une approche monothread. En répartissant efficacement la charge de travail, vous pouvez atteindre des performances élevées même lorsque vous traitez des ensembles de données volumineux.

Considération importante :

En lisant le fichier ligne par ligne, on peut également compter le nombre total de lignes. Au cours du processus, nous effectuons la déduplication en deux étapes : d'abord lors du chunking, puis lors de la fusion. Par conséquent, il n’est pas nécessaire de compter les lignes dans le fichier de sortie final. Au lieu de cela, le nombre total de lignes uniques peut être calculé comme :

finalCount := totalLines - (DeletedInChunks DeletedInMerge)

Cette approche évite les opérations redondantes et rend le calcul plus efficace en gardant une trace des suppressions à chaque étape de la déduplication. Cela nous fait gagner des minutes de service.

Encore une chose :

Étant donné que tout petit gain de performances est important sur d'énormes quantités de données, je suggère d'utiliser un analogue accéléré auto-écrit de strings.Slice()

145.67.23.4
8.34.5.23
89.54.3.124
89.54.3.124
3.45.71.5
...

De plus, un modèle de travailleur a été adopté pour gérer le traitement parallèle, le nombre de threads étant configurable. Par défaut, le nombre de threads est défini sur runtime.NumCPU(), permettant au programme d'utiliser efficacement tous les cœurs de processeur disponibles. Cette approche garantit une utilisation optimale des ressources tout en offrant également la flexibilité d'ajuster le nombre de threads en fonction des exigences spécifiques ou des limitations de l'environnement.

Remarque importante : Lors de l'utilisation du multithreading, il est crucial de protéger les données partagées pour éviter les conditions de concurrence et garantir l'exactitude du programme. Ceci peut être réalisé en utilisant des mécanismes de synchronisation tels que des mutex, des canaux (en Go) ou d'autres techniques sécurisées pour la concurrence, en fonction des exigences spécifiques de votre implémentation.

Résumé jusqu'à présent

La mise en œuvre de ces idées a abouti à un code qui, lorsqu'il est exécuté sur un processeur Ryzen 7700 associé à un SSD M.2, a accompli la tâche en environ 40 minutes.

Compte tenu de la compression.

La considération suivante, basée sur le volume de données et donc la présence d'opérations de disque importantes, était l'utilisation de la compression. L'algorithme de Brotli a été choisi pour la compression. Son taux de compression élevé et sa décompression efficace en font un choix approprié pour réduire la surcharge des E/S du disque tout en conservant de bonnes performances pendant le stockage et le traitement intermédiaires.

Voici l'exemple de chunking avec Brotli :

package main

import (
    "bufio"
    "fmt"
    "os"
    "strconv"
    "strings"
    "math/bits"
)

//  Parse IP address "A.B.C.D"  => uint32 number
func ipToUint32(ipStr string) (uint32, error) {
    parts := strings.Split(ipStr, ".")
    if len(parts) != 4 {
        return 0, fmt.Errorf("invalid IP format")
    }

    var ipNum uint32
    for i := 0; i  255 {
            return 0, fmt.Errorf("invalid IP octet: %v", parts[i])
        }
        ipNum = (ipNum 



<h2>
  
  
  Résultats de l'utilisation de la compression
</h2>

<p>L'efficacité de la compression est discutable et fortement dépendante des conditions dans lesquelles la solution est utilisée. Une compression élevée réduit l'utilisation de l'espace disque mais augmente proportionnellement le temps d'exécution global. Sur les disques durs lents, la compression peut augmenter considérablement la vitesse, car les E/S disque deviennent le goulot d'étranglement. À l’inverse, sur les SSD rapides, la compression peut entraîner des temps d’exécution plus lents.</p><p>Lors de tests effectués sur un système équipé de SSD M.2, la compression n'a montré aucune amélioration des performances. En conséquence, j’ai finalement décidé d’y renoncer. Cependant, si vous êtes prêt à risquer d'ajouter de la complexité à votre code et potentiellement de réduire sa lisibilité, vous pouvez implémenter la compression en tant que fonctionnalité facultative, contrôlée par un indicateur configurable.</p>

<h2>
  
  
  Que faire ensuite
</h2>

<p>Dans la poursuite d'une optimisation plus poussée, nous tournons notre attention vers la transformation binaire de notre solution. Une fois les adresses IP textuelles converties en hachages numériques, toutes les opérations ultérieures peuvent être effectuées au format binaire.<br>
</p>

<pre class="brush:php;toolbar:false">145.67.23.4
8.34.5.23
89.54.3.124
89.54.3.124
3.45.71.5
...

Avantages du format binaire

Compacité :

Chaque nombre occupe une taille fixe (par exemple, uint32 = 4 octets).
Pour 1 million d'adresses IP, la taille du fichier ne sera que d'environ 4 Mo.

Traitement rapide :

Il n'est pas nécessaire d'analyser les chaînes, ce qui accélère les opérations de lecture et d'écriture.

Compatibilité multiplateforme :

En utilisant un ordre d'octets cohérent (LittleEndian ou BigEndian), les fichiers peuvent être lus sur différentes plates-formes.

Conclusion
Le stockage des données au format binaire est une méthode plus efficace pour écrire et lire des nombres. Pour une optimisation complète, convertissez les processus d'écriture et de lecture des données au format binaire. Utilisez binaire.Write pour l'écriture et binaire.Read pour la lecture.

Voici à quoi pourrait ressembler la fonction processChunk pour fonctionner avec le format binaire :

package main

import (
    "bufio"
    "fmt"
    "os"
    "strconv"
    "strings"
    "math/bits"
)

//  Parse IP address "A.B.C.D"  => uint32 number
func ipToUint32(ipStr string) (uint32, error) {
    parts := strings.Split(ipStr, ".")
    if len(parts) != 4 {
        return 0, fmt.Errorf("invalid IP format")
    }

    var ipNum uint32
    for i := 0; i  255 {
            return 0, fmt.Errorf("invalid IP octet: %v", parts[i])
        }
        ipNum = (ipNum 



<h2>
  
  
  WTF ?! C'est devenu beaucoup plus lent !!
</h2>

<p>Au format binaire, le fonctionnement est devenu plus lent. Un fichier de 100 millions de lignes (adresses IP) est traité sous forme binaire en 4,5 minutes, contre 25 secondes en texte. Avec une taille de morceau et un nombre de travailleurs égaux. Pourquoi ?</p>

<p><strong>Travailler avec le format binaire peut être plus lent qu'avec le format texte</strong><br>
L'utilisation du format binaire peut parfois être plus lente que le format texte en raison des spécificités du fonctionnement de Binary.Read et de Binary.Write, ainsi que des inefficacités potentielles dans leur mise en œuvre. Voici les principales raisons pour lesquelles cela pourrait arriver :</p>

<p><strong>Opérations d'E/S</strong></p>

Format du texte :

Fonctionne avec des blocs de données plus volumineux à l'aide de bufio.Scanner, optimisé pour la lecture de lignes.
Lit des lignes entières et les analyse, ce qui peut être plus efficace pour les petites opérations de conversion.

Format binaire :

binary.Read lit 4 octets à la fois, ce qui entraîne de petites opérations d'E/S plus fréquentes.
Les appels fréquents à binaire.Read augmentent la surcharge due au basculement entre l'espace utilisateur et l'espace système.

Solution : Utilisez un tampon pour lire plusieurs nombres à la fois.

func fastSplit(s string) []string {
    n := 1
    c := DelimiterByte

    for i := 0; i 



<p><strong>Pourquoi la mise en mémoire tampon améliore-t-elle les performances ?</strong></p>

Moins d'opérations d'E/S :
Au lieu d'écrire chaque numéro directement sur le disque, les données sont accumulées dans un tampon et écrites en blocs plus grands.
Frais généraux réduits :

Chaque opération d'écriture sur disque entraîne une surcharge en raison du changement de contexte entre le processus et le système d'exploitation. La mise en mémoire tampon réduit le nombre de ces appels.

Nous présentons également le code de fusion binaire multiphase :

145.67.23.4
8.34.5.23
89.54.3.124
89.54.3.124
3.45.71.5
...

Le résultat est fantastique : 14 min pour un fichier de 110 Go avec 8 milliards de lignes !

Image description

C'est un résultat exceptionnel ! Traiter un fichier de 110 Go comportant 8 milliards de lignes en 14 minutes est en effet impressionnant. Cela démontre le pouvoir de :

E/S tamponnées :

En traitant de gros morceaux de données en mémoire au lieu de ligne par ligne ou valeur par valeur, vous réduisez considérablement le nombre d'opérations d'E/S, qui constituent souvent le goulot d'étranglement.

Traitement binaire optimisé :

Le passage à la lecture et à l'écriture binaires minimise la surcharge d'analyse, réduit la taille des données intermédiaires et améliore l'efficacité de la mémoire.

Déduplication efficace :

L'utilisation d'algorithmes économes en mémoire pour la déduplication et le tri garantit que les cycles du processeur sont utilisés efficacement.

Parallélisme :

Tirer parti des goroutines et des canaux pour paralléliser la charge de travail entre les travailleurs équilibre l'utilisation du processeur et du disque.

Conclusion

Enfin, voici le code complet de la solution finale. N'hésitez pas à l'utiliser et à l'adapter à vos besoins !

Solution de fusion externe pour Gophers

Bonne chance !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semainesByDDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semainesByDDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semainesByDDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques moisByDDD

Afficher plus

Outils chauds

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Version Mac de WebStorm

Outils de développement JavaScript utiles

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7681

Tutoriel CakePHP

1393

Tutoriel C#

1209

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus