Comment obtenir 4 FLOP par cycle sur les processeurs Intel x86-64 modernes ?-C++-php.cn

Maison

développement back-end

C++

Comment obtenir 4 FLOP par cycle sur les processeurs Intel x86-64 modernes ?

Susan Sarandon

Dec 14, 2024 am 08:42 AM

How to Achieve 4 FLOPs Per Cycle on Modern x86-64 Intel CPUs?

Comment atteindre le maximum théorique de 4 FLOP par cycle ?

Il est théoriquement possible d'atteindre une performance maximale de 4 virgules flottantes opérations (double précision) par cycle sur les processeurs Intel x86-64 modernes, en utilisant les techniques suivantes :

Optimisation du code pour les instructions SSE

Utilisez les instructions SSE (Streaming SIMD Extensions), qui permettent le traitement parallèle de plusieurs éléments de données.
Assurez-vous que le code est correctement aligné pour des performances SSE optimales .

Déroulement de boucle et entrelacement

Déroulez les boucles internes pour améliorer le parallélisme au niveau des instructions.
L'entrelacement se multiplie et s'ajoute pour tirer parti des capacités de pipeline du processeur.

Regrouper les opérations dans trois

Organisez les opérations en groupes de trois pour correspondre aux unités d'exécution sur certains processeurs Intel. Cela permet d'alterner entre les instructions d'ajout et de mul, maximisant ainsi le débit.

Éviter les blocages et les dépendances inutiles

Minimiser les dépendances de données entre les instructions pour éviter les blocages .
Utilisez les optimisations du compilateur (-O3 ou supérieur) pour aider à identifier et éliminer les éléments inutiles. dépendances.

Exemple de code

L'extrait de code suivant montre comment atteindre des performances proches des performances maximales sur les processeurs Intel Core i5 et Core i7 :

#include <emmintrin.h>
#include <omp.h>
#include <iostream>
using namespace std;

typedef unsigned long long uint64;

double test_dp_mac_SSE(double x, double y, uint64 iterations) {
    register __m128d r0, r1, r2, r3, r4, r5, r6, r7, r8, r9, rA, rB, rC, rD, rE, rF;

    // Generate starting data.
    r0 = _mm_set1_pd(x);
    r1 = _mm_set1_pd(y);

    r8 = _mm_set1_pd(-0.0);

    r2 = _mm_xor_pd(r0, r8);
    r3 = _mm_or_pd(r0, r8);
    r4 = _mm_andnot_pd(r8, r0);
    r5 = _mm_mul_pd(r1, _mm_set1_pd(0.37796447300922722721));
    r6 = _mm_mul_pd(r1, _mm_set1_pd(0.24253562503633297352));
    r7 = _mm_mul_pd(r1, _mm_set1_pd(4.1231056256176605498));
    r8 = _mm_add_pd(r0, _mm_set1_pd(0.37796447300922722721));
    r9 = _mm_add_pd(r1, _mm_set1_pd(0.24253562503633297352));
    rA = _mm_sub_pd(r0, _mm_set1_pd(4.1231056256176605498));
    rB = _mm_sub_pd(r1, _mm_set1_pd(4.1231056256176605498));

    rC = _mm_set1_pd(1.4142135623730950488);
    rD = _mm_set1_pd(1.7320508075688772935);
    rE = _mm_set1_pd(0.57735026918962576451);
    rF = _mm_set1_pd(0.70710678118654752440);

    uint64 iMASK = 0x800fffffffffffffull;
    __m128d MASK = _mm_set1_pd(*(double*)&iMASK);
    __m128d vONE = _mm_set1_pd(1.0);

    uint64 c = 0;
    while (c </iostream></omp.h></emmintrin.h>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

XML en C: Gestion des structures de données complexesMay 02, 2025 am 12:04 AM

Travailler avec des structures de données XML en C peut utiliser la bibliothèque TinyXML ou PUGIXML. 1) Utilisez la bibliothèque PUGIXML pour analyser et générer des fichiers XML. 2) Gérer les éléments XML imbriqués complexes, tels que les informations du livre. 3) Optimiser le code de traitement XML, et il est recommandé d'utiliser des bibliothèques efficaces et des analyses de streaming. Grâce à ces étapes, les données XML peuvent être traitées efficacement.

C et performance: où il domine encoreMay 01, 2025 am 12:14 AM

C domine toujours l'optimisation des performances car sa gestion de la mémoire de bas niveau et ses capacités d'exécution efficaces le rendent indispensable dans le développement de jeux, les systèmes de transaction financière et les systèmes intégrés. Plus précisément, il se manifeste comme suit: 1) dans le développement de jeux, la gestion de la mémoire de bas niveau de C et les capacités d'exécution efficaces en font le langage préféré pour le développement du moteur de jeu; 2) Dans les systèmes de transaction financière, les avantages de performance de C assurent la latence extrêmement faible et le débit élevé; 3) Dans les systèmes intégrés, la gestion de la mémoire de bas niveau de C et les capacités d'exécution efficaces le rendent très populaire dans des environnements limités aux ressources.

C Frameworks XML: Choisir le bon pour vousApr 30, 2025 am 12:01 AM

Le choix du cadre C XML doit être basé sur les exigences du projet. 1) TinyXML convient aux environnements liés aux ressources, 2) PUGIXML convient aux exigences à haute performance, 3) Xerces-C prend en charge la vérification complexe XMLSChema et les performances, la facilité d'utilisation et les licences doivent être prises en compte lors du choix.

C # vs C: Choisir la bonne langue pour votre projetApr 29, 2025 am 12:51 AM

C # convient aux projets qui nécessitent l'efficacité du développement et la sécurité des types, tandis que C convient aux projets qui nécessitent des performances élevées et un contrôle matériel. 1) C # fournit la collection des ordures et LINQ, adapté aux applications d'entreprise et au développement de Windows. 2) C est connu pour ses performances élevées et son contrôle sous-jacent, et est largement utilisé dans les jeux et la programmation système.

Comment optimiser le codeApr 28, 2025 pm 10:27 PM

L'optimisation du code C peut être réalisée grâce aux stratégies suivantes: 1. Gérer manuellement la mémoire pour l'utilisation d'optimisation; 2. Écrivez du code conforme aux règles d'optimisation du compilateur; 3. Sélectionnez les algorithmes et structures de données appropriés; 4. Utiliser les fonctions en ligne pour réduire les frais généraux d'appel; 5. Appliquer la métaprogrammation du modèle pour optimiser au moment de la compilation; 6. Évitez la copie inutile, utilisez la sémantique mobile et les paramètres de référence; 7. Utilisez Constir correctement pour aider à l'optimisation du compilateur; 8. Sélectionnez des structures de données appropriées, telles que STD :: Vector.

Comment comprendre le mot-clé volatil en C?Apr 28, 2025 pm 10:24 PM

Le mot-clé volatil en C est utilisé pour informer le compilateur que la valeur de la variable peut être modifiée en dehors du contrôle du code et ne peut donc pas être optimisée. 1) Il est souvent utilisé pour lire des variables qui peuvent être modifiées par des programmes de service matériel ou interrompus, tels que l'état du capteur. 2) Volatile ne peut garantir la sécurité multi-thread et doit utiliser des serrures mutex ou des opérations atomiques. 3) L'utilisation du volatile peut entraîner une légère diminution des performances, mais assurer l'exactitude du programme.

Comment mesurer les performances du fil en C?Apr 28, 2025 pm 10:21 PM

La mesure des performances du thread en C peut utiliser les outils de synchronisation, les outils d'analyse des performances et les minuteries personnalisées dans la bibliothèque standard. 1. Utilisez la bibliothèque pour mesurer le temps d'exécution. 2. Utilisez le GPROF pour l'analyse des performances. Les étapes incluent l'ajout de l'option -pg pendant la compilation, l'exécution du programme pour générer un fichier gmon.out et la génération d'un rapport de performances. 3. Utilisez le module Callgrind de Valgrind pour effectuer une analyse plus détaillée. Les étapes incluent l'exécution du programme pour générer le fichier callgrind.out et la visualisation des résultats à l'aide de Kcachegrind. 4. Les minuteries personnalisées peuvent mesurer de manière flexible le temps d'exécution d'un segment de code spécifique. Ces méthodes aident à bien comprendre les performances du thread et à optimiser le code.

Comment utiliser la bibliothèque Chrono en C?Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

See all articles