Maison >développement back-end >C++ >Pourquoi le Popcount 64 bits est-il plus lent que 32 bits sur les processeurs Intel en raison de fausses dépendances de données ?

Pourquoi le Popcount 64 bits est-il plus lent que 32 bits sur les processeurs Intel en raison de fausses dépendances de données ?

Susan Sarandon
Susan Sarandonoriginal
2024-12-09 22:19:11867parcourir

Why is 64-bit Popcount Slower Than 32-bit on Intel CPUs Due to False Data Dependencies?

Une fausse dépendance aux données a un impact sur les performances du Popcount sur les processeurs Intel

Problème :

Vous avez observé des écarts de performances entre l'utilisation d'un compteur de boucles 32 bits et 64 bits pour les opérations de comptage pop-up sur les processeurs Intel. Les performances ont chuté de 50 % lors de l'utilisation d'un compteur 64 bits, initialement attribuées à un bug du compilateur.

Explication : fausse dépendance des données

Les processeurs Intel ont une fausse dépendance sur le registre de destination dans les instructions popcnt, ce qui affecte plusieurs itérations d'une boucle serrée. Cette dépendance bloque l'instruction jusqu'à ce que le registre de destination soit disponible. Le nombre d'instructions affectées par cette dépendance dépend de la localité de la boucle, entraînant des variations de performances.

Conséquences de la dépendance :

  • Différents registres : Lorsque la boucle utilise différents registres pour les opérations popcnt successives, la dépendance est répartie sur les itérations de la boucle, ce qui a un impact significatif performances.
  • Même registre : Si toutes les opérations popcnt utilisent le même registre, la dépendance reste au sein d'une seule itération, réduisant ainsi l'impact sur les performances.
  • Dépendance brisée Chaîne : Rompre la dépendance en introduisant une instruction sans rapport (par exemple, xor) améliore les performances en permettant au processeur de paralléliser la boucle itérations.

Comportement du compilateur :

Ni GCC ni Visual Studio ne sont conscients de cette fausse dépendance, conduisant à des performances imprévisibles basées sur l'allocation des registres. D'autres compilateurs, tels que Clang et ICC, manquent également de ces connaissances.

Performances AMD :

Les processeurs AMD ne semblent pas avoir cette fausse dépendance, contribuant à leur plus grande performances en popcount opérations.

Atténuations :

  • Assemblage en ligne : L'optimisation manuelle du code d'assemblage à l'aide de l'assemblage en ligne peut contourner la méconnaissance de la dépendance par le compilateur .
  • Briser la dépendance Chaîne : L'insertion d'une instruction sans rapport après chaque opération popcnt rompt la fausse dépendance et améliore les performances.
  • Utilisation de différents registres : L'attribution de registres différents pour des opérations popcnt consécutives peut atténuer le problème, mais peut pas toujours possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn