Maison >développement back-end >Tutoriel Python >Pourquoi la lecture de la ligne `stdin` de C est-elle considérablement plus lente que celle de Python, et comment peut-elle être améliorée ?
Dans cet article, nous visons à comprendre pourquoi la lecture de lignes de données de chaîne à partir d'une entrée standard (stdin ) l'utilisation de C est généralement beaucoup plus lente que son homologue Python. Nous commençons par examiner le code fourni, en identifiant les domaines de préoccupation potentiels.
string input_line; long line_count = 0; time_t start = time(NULL); int sec; int lps; while (cin) { getline(cin, input_line); if (!cin.eof()) line_count++; }
Ce code utilise getline() pour lire des lignes de texte à partir de stdin et compte le nombre de lignes dans un fichier. Cependant, il lit chaque caractère du fichier un par un dans une boucle interne. Cette approche est inefficace et conduit à des appels système excessifs, entraînant une exécution lente.
Contrairement à Python, les flux C ont des paramètres par défaut qui donnent la priorité à la synchronisation avec la norme de style C. fonctions d'entrée et de sortie. Cette synchronisation garantit que les flux C et C accèdent de manière cohérente aux ressources d’entrée et de sortie. Cependant, cette synchronisation empêche également les flux C d'utiliser des mécanismes de mise en mémoire tampon plus efficaces.
cin est synchronisé avec stdio, ce qui lui permet d'éviter toute mise en mémoire tampon d'entrée. En conséquence, cin ne lit qu'un seul caractère à la fois, ce qui rend le processus plus long.
Pour améliorer les performances du code C, on peut désactiver la synchronisation entre cin et stdio. En ajoutant l'instruction cin.sync_with_stdio(false) au début du programme, nous pouvons permettre aux flux C de mettre en mémoire tampon leurs E/S indépendamment, ce qui entraîne des améliorations significatives de la vitesse.
Une autre approche efficace pour améliorer les performances consiste à utiliser fgets() au lieu de getline(). fgets est une fonction C qui lit un nombre spécifié de caractères de stdin dans un tableau de caractères, offrant ainsi un meilleur contrôle sur le processus de mise en mémoire tampon.
Pour démontrer le différence de performances, un fichier contenant 100 millions de lignes a été utilisé pour l'analyse comparative. Les résultats utilisant le code C original (synchronisé), C avec synchronisation désactivée et Python étaient les suivants :
Implementation | Lines per Second |
---|---|
Python (default) | 3,571,428 |
cin (default/naive) | 819,672 |
cin (no sync) | 12,500,000 |
fgets | 14,285,714 |
wc (not a fair comparison) | 54,644,808 |
La désactivation de la synchronisation en C a entraîné une amélioration significative, tandis que l'utilisation de fgets a offert des performances encore meilleures. Il est important de noter que l'utilisation de wc n'est pas une comparaison équitable car elle est conçue spécifiquement pour compter les lignes.
En comprenant les paramètres par défaut des flux C et en implémentant Avec des optimisations appropriées, telles que la désactivation de la synchronisation des flux ou l'utilisation de fgets, les performances du code C pour la lecture des lignes à partir de stdin peuvent être considérablement réduites. amélioré, ce qui le rend comparable ou même plus rapide que son homologue Python.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!