用 64 位替换 32 位循环计数器会在 Intel CPU 上使用 _mm_popcnt_u64 引入疯狂的性能偏差
问题摘要
当循环计数器出现时,popcount 基准测试的性能会发生巨大变化变量从 32 位无符号更改为 64 位无符号,尽管更改似乎没有影响循环的基本操作。
问题
- 为什么使用 32 位和 64 位循环计数器会有如此大的性能差异?
- 如何替换具有常量值的非恒定缓冲区大小会导致较慢代码?
- 将“static”关键字添加到缓冲区大小变量如何使64位循环更快?
回答
1。性能差异是由于 Intel CPU 上 popcnt 指令中的错误数据依赖性造成的。
当循环计数器为 32 位时,每个循环迭代中的 popcnt 指令是独立执行的,从而允许并行执行。然而,当循环计数器为 64 位时,popcnt 指令之间会引入错误的数据依赖关系,导致它们无法并行执行。这种依赖性是由于 popcnt 指令的目标寄存器在下一次迭代中被重用而引起的,从而创建了限制性能的人为依赖性。
2.用常量值替换非常量缓冲区大小会减慢代码速度,因为它会阻止编译器执行某些优化。
使用常量缓冲区大小,编译器知道缓冲区的确切大小在编译时,这可以允许更有效的内存访问模式和指令调度。但是,如果缓冲区大小不固定,编译器必须假设最坏的情况,这可能会导致代码优化程度较低。
3.将 'static' 关键字添加到缓冲区大小变量可以使 64 位循环更快,因为它使缓冲区大小成为编译时常量,从而允许编译器执行额外的优化。
通过使缓冲区大小是编译时常量,编译器可以更积极地优化内存访问模式和指令调度,从而产生更快的代码。
课程了解
即使循环中的微小变化也会由于意外的依赖项或编译器优化而对性能产生重大影响。了解这些依赖关系以及它们如何影响性能以编写高效的代码非常重要。
以上是为什么将循环计数器从 32 位更改为 64 位会极大地影响 Intel CPU 上的 _mm_popcnt_u64 性能?的详细内容。更多信息请关注PHP中文网其他相关文章!

本文解释了C标准模板库(STL),重点关注其核心组件:容器,迭代器,算法和函子。 它详细介绍了这些如何交互以启用通用编程,提高代码效率和可读性t

本文详细介绍了c中有效的STL算法用法。 它强调了数据结构选择(向量与列表),算法复杂性分析(例如,std :: sort vs. std vs. std :: partial_sort),迭代器用法和并行执行。 常见的陷阱

本文详细介绍了C中的有效异常处理,涵盖了尝试,捕捉和投掷机制。 它强调了诸如RAII之类的最佳实践,避免了不必要的捕获块,并为强大的代码登录例外。 该文章还解决了Perf

C 20范围通过表现力,合成性和效率增强数据操作。它们简化了复杂的转换并集成到现有代码库中,以提高性能和可维护性。

本文讨论了使用C中的移动语义来通过避免不必要的复制来提高性能。它涵盖了使用std :: Move的实施移动构造函数和任务运算符,并确定了关键方案和陷阱以有效

本文讨论了C中的动态调度,其性能成本和优化策略。它突出了动态调度会影响性能并将其与静态调度进行比较的场景,强调性能和之间的权衡

文章讨论了在C中有效使用RVALUE参考,以进行移动语义,完美的转发和资源管理,重点介绍最佳实践和性能改进。(159个字符)


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

禅工作室 13.0.1
功能强大的PHP集成开发环境

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

Dreamweaver CS6
视觉化网页开发工具

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具