搜索
首页后端开发C++为什么在 Intel CPU 上用 64 位替换 32 位循环计数器会导致'_mm_popcnt_u64”性能下降?

Why Does Replacing a 32-bit Loop Counter with 64-bit Cause Performance Degradation with `_mm_popcnt_u64` on Intel CPUs?

用 64 位替换 32 位循环计数器会在 Intel CPU 上使用 mm_popcnt_u64 引入疯狂的性能偏差

摘要

文章调查了更换 32 位循环计数器时遇到的性能偏差使用 _mm_popcnt_u64 内在函数在性能关键循环中使用 64 位计数器。该问题导致 Intel CPU 的性能显着下降,从而导致执行速度不同。作者探讨了这种行为背后的原因并提供了潜在的解决方案。

详细信息

相关代码涉及一个迭代数据数组并执行 popcount 的循环使用 x86 内部指令进行操作。循环计数器变量最初是一个无符号整数,但将其替换为 64 位无符号整数(uint64_t)导致性能下降约 50%。

为了调查原因,作者编译了代码:各种优化标志并分析了生成的汇编代码。他们观察到32位和64位版本生成了不同的程序集,导致他们怀疑编译器存在错误。

但是,在使用不同的编译器测试代码后,作者得出的结论是问题不在于由编译器错误引起,而不是由硬件中的错误数据依赖性引起。 _mm_popcnt_u64 指令在 Intel Sandy/Ivy Bridge 和 Haswell 处理器上使用时,会表现出对目标寄存器的错误依赖性,其中指令会等到目标准备好后再执行。这种错误的依赖关系可能会跨循环迭代,从而阻止处理器并行化不同的迭代并导致性能损失。

作者提出了内联汇编测试,通过隔离 popcount 操作并打破错误依赖关系来演示性能差异链。这些测试表明,错误的依赖关系对性能有显着影响,导致速度从 18.6195 GB/s 降低至 8.49272 GB/s。

文章还强调该问题影响 Intel CPU,而 AMD 处理器似乎没有这个假

解决方案

为了缓解此性能问题,作者建议了几种解决方案:

  • 改用 32 位循环计数器用于此特定循环的 64 位计数器。
  • 如果使用 64 位循环计数器必要时,在 popcount 操作中使用目标寄存器之前,通过显式清零目标寄存器来打破错误依赖链。
  • 使用能够识别此错误依赖关系并生成代码来补偿它的编译器。

以上是为什么在 Intel CPU 上用 64 位替换 32 位循环计数器会导致'_mm_popcnt_u64”性能下降?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
C:死亡还是简单地发展?C:死亡还是简单地发展?Apr 24, 2025 am 12:13 AM

1)c relevantduetoItsAverity and效率和效果临界。2)theLanguageIsconTinuellyUped,withc 20introducingFeaturesFeaturesLikeTuresLikeSlikeModeLeslikeMeSandIntIneStoImproutiMimproutimprouteverusabilityandperformance.3)

C在现代世界中:应用和行业C在现代世界中:应用和行业Apr 23, 2025 am 12:10 AM

C 在现代世界中的应用广泛且重要。1)在游戏开发中,C 因其高性能和多态性被广泛使用,如UnrealEngine和Unity。2)在金融交易系统中,C 的低延迟和高吞吐量使其成为首选,适用于高频交易和实时数据分析。

C XML库:比较和对比选项C XML库:比较和对比选项Apr 22, 2025 am 12:05 AM

C 中有四种常用的XML库:TinyXML-2、PugiXML、Xerces-C 和RapidXML。1.TinyXML-2适合资源有限的环境,轻量但功能有限。2.PugiXML快速且支持XPath查询,适用于复杂XML结构。3.Xerces-C 功能强大,支持DOM和SAX解析,适用于复杂处理。4.RapidXML专注于性能,解析速度极快,但不支持XPath查询。

C和XML:探索关系和支持C和XML:探索关系和支持Apr 21, 2025 am 12:02 AM

C 通过第三方库(如TinyXML、Pugixml、Xerces-C )与XML交互。1)使用库解析XML文件,将其转换为C 可处理的数据结构。2)生成XML时,将C 数据结构转换为XML格式。3)在实际应用中,XML常用于配置文件和数据交换,提升开发效率。

C#vs. C:了解关键差异和相似之处C#vs. C:了解关键差异和相似之处Apr 20, 2025 am 12:03 AM

C#和C 的主要区别在于语法、性能和应用场景。1)C#语法更简洁,支持垃圾回收,适用于.NET框架开发。2)C 性能更高,需手动管理内存,常用于系统编程和游戏开发。

C#与C:历史,进化和未来前景C#与C:历史,进化和未来前景Apr 19, 2025 am 12:07 AM

C#和C 的历史与演变各有特色,未来前景也不同。1.C 由BjarneStroustrup在1983年发明,旨在将面向对象编程引入C语言,其演变历程包括多次标准化,如C 11引入auto关键字和lambda表达式,C 20引入概念和协程,未来将专注于性能和系统级编程。2.C#由微软在2000年发布,结合C 和Java的优点,其演变注重简洁性和生产力,如C#2.0引入泛型,C#5.0引入异步编程,未来将专注于开发者的生产力和云计算。

C#vs. C:学习曲线和开发人员的经验C#vs. C:学习曲线和开发人员的经验Apr 18, 2025 am 12:13 AM

C#和C 的学习曲线和开发者体验有显着差异。 1)C#的学习曲线较平缓,适合快速开发和企业级应用。 2)C 的学习曲线较陡峭,适用于高性能和低级控制的场景。

C#vs. C:面向对象的编程和功能C#vs. C:面向对象的编程和功能Apr 17, 2025 am 12:02 AM

C#和C 在面向对象编程(OOP)中的实现方式和特性上有显着差异。 1)C#的类定义和语法更为简洁,支持如LINQ等高级特性。 2)C 提供更细粒度的控制,适用于系统编程和高性能需求。两者各有优势,选择应基于具体应用场景。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),