首页 >后端开发 >C++ >为什么将循环计数器从 32 位更改为 64 位会极大地影响 Intel CPU 上的 _mm_popcnt_u64 性能?

为什么将循环计数器从 32 位更改为 64 位会极大地影响 Intel CPU 上的 _mm_popcnt_u64 性能?

Barbara Streisand
Barbara Streisand原创
2024-12-17 01:00:25829浏览

Why Does Changing a Loop Counter from 32-bit to 64-bit Dramatically Impact _mm_popcnt_u64 Performance on Intel CPUs?

用 64 位替换 32 位循环计数器会在 Intel CPU 上使用 _mm_popcnt_u64 引入疯狂的性能偏差

问题摘要

当循环计数器出现时,popcount 基准测试的性能会发生巨大变化变量从 32 位无符号更改为 64 位无符号,尽管更改似乎没有影响循环的基本操作。

问题

  1. 为什么使用 32 位和 64 位循环计数器会有如此大的性能差异?
  2. 如何替换具有常量值的非恒定缓冲区大小会导致较慢代码?
  3. 将“static”关键字添加到缓冲区大小变量如何使64位循环更快?

回答

1。性能差异是由于 Intel CPU 上 popcnt 指令中的错误数据依赖性造成的。

当循环计数器为 32 位时,每个循环迭代中的 popcnt 指令是独立执行的,从而允许并行执行。然而,当循环计数器为 64 位时,popcnt 指令之间会引入错误的数据依赖关系,导致它们无法并行执行。这种依赖性是由于 popcnt 指令的目标寄存器在下一次迭代中被重用而引起的,从而创建了限制性能的人为依赖性。

2.用常量值替换非常量缓冲区大小会减慢代码速度,因为它会阻止编译器执行某些优化。

使用常量缓冲区大小,编译器知道缓冲区的确切大小在编译时,这可以允许更有效的内存访问模式和指令调度。但是,如果缓冲区大小不固定,编译器必须假设最坏的情况,这可能会导致代码优化程度较低。

3.将 'static' 关键字添加到缓冲区大小变量可以使 64 位循环更快,因为它使缓冲区大小成为编译时常量,从而允许编译器执行额外的优化。

通过使缓冲区大小是编译时常量,编译器可以更积极地优化内存访问模式和指令调度,从而产生更快的代码。

课程了解

即使循环中的微小变化也会由于意外的依赖项或编译器优化而对性能产生重大影响。了解这些依赖关系以及它们如何影响性能以编写高效的代码非常重要。

以上是为什么将循环计数器从 32 位更改为 64 位会极大地影响 Intel CPU 上的 _mm_popcnt_u64 性能?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn