用 64 位替换 32 位循环计数器可能会导致 Intel CPU 上的 _mm_popcnt_u64 出现显着的性能偏差
出现此问题的原因错误的数据依赖性,具体来说,
_mm_popcnt_u64 指令对其目标寄存器存在错误依赖性,导致其在执行之前等待目标寄存器准备就绪。这种依赖性可以跨循环迭代进行,使处理器难以并行化不同的循环迭代。
循环变量类型的选择(无符号与 uint64_t)影响寄存器分配器
将寄存器分配给变量,导致_mm_popcnt_u64的寄存器分配和错误依赖链存在差异
在大小变量前面插入 static 关键字
可以改变寄存器分配并打破错误的依赖链。在某些情况下,这可以通过消除对目标寄存器的交叉迭代依赖来提高性能。
要缓解此问题并实现一致的性能:
以上是为什么更改循环计数器的位宽会影响 Intel CPU 上的 _mm_popcnt_u64 性能?的详细内容。更多信息请关注PHP中文网其他相关文章!