搜索
首页后端开发C++我们如何在 AVX2 中为 Intel 和 AMD 处理器高效实现 log2(__m256d)?

How Can We Efficiently Implement log2(__m256d) in AVX2 for Both Intel and AMD Processors?

AVX2 中 log2(__m256d) 的高效实现

SVML 的 __m256d _mm256_log2_pd (__m256d a) 仅限于 Intel 编译器,据报道在 AMD 处理器上速度较慢。存在替代实现,但它们通常关注 SSE 而不是 AVX2。本次讨论旨在为四个双精度数向量提供 log2() 的高效实现,该实现与各种编译器兼容,并且在 AMD 和 Intel 处理器上均表现良好。

传统策略

通常的方法利用公式 log2(a*b) = log2(a) log2(b),该公式可简化为指数log2(尾数) 对于双数。尾数的范围有限,为 1.0 到 2.0,因此适合通过多项式逼近来获得 log2(尾数)。

准确度和精度

所需的准确度和投入的范围影响实施。 Agner Fog 的 VCL 旨在使用误差避免技术实现高精度。但是,为了更快地近似 float log(),请考虑 JRF 的多项式实现(可在此处找到:http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials.html)。

VCL 算法

VCL 的 log float 和double 函数遵循两部分方法:

  1. 提取指数和尾数: 指数将转换回浮点数,并通过检查小于的值来调整尾数SQRT2*0.5。接下来从尾数中减去 1.0。
  2. 多项式近似: 将多项式近似应用于调整后的尾数,以计算 x=1.0 附近的 log(x)。对于双精度,VCL 使用两个 5 阶多项式的比率。

通过将指数添加到多项式近似值来获得最终结果。 VCL 包含额外的步骤来最小化舍入误差。

替代多项式近似

为了提高准确性,您可以直接使用 VCL。然而,为了更快地实现 float 的近似 log2(),请考虑使用 FMA 将 JRF 的 SSE2 函数移植到 AVX2。

避免舍入误差

VCL 使用各种技术来减少舍入误差。其中包括:

  • 将 ln2 拆分为更小的常数(ln2_lo 和 ln2_hi)
  • 添加行 res = nmul_add(x2, 0.5, x);多项式评估

去除不必要的步骤

如果已知您的值是有限且正的,则可以通过注释掉以下检查来显着提高性能下溢、溢出或非正规。

进一步正在阅读

  • [具有极小极大误差的多项式逼近](http://gallium.inria.fr/blog/fast-向量化-math-approx/)
  • [使用位的快速近似对数操纵](http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html)

以上是我们如何在 AVX2 中为 Intel 和 AMD 处理器高效实现 log2(__m256d)?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
揭穿神话:C真的是一种死语吗?揭穿神话:C真的是一种死语吗?May 05, 2025 am 12:11 AM

C 没有死,反而在许多关键领域蓬勃发展:1)游戏开发,2)系统编程,3)高性能计算,4)浏览器和网络应用,C 依然是主流选择,展现了其强大的生命力和应用场景。

C#vs. C:编程语言的比较分析C#vs. C:编程语言的比较分析May 04, 2025 am 12:03 AM

C#和C 的主要区别在于语法、内存管理和性能:1)C#语法现代,支持lambda和LINQ,C 保留C特性并支持模板。2)C#自动内存管理,C 需要手动管理。3)C 性能优于C#,但C#性能也在优化中。

用C构建XML应用程序:实例用C构建XML应用程序:实例May 03, 2025 am 12:16 AM

在C 中处理XML数据可以使用TinyXML、Pugixml或libxml2库。1)解析XML文件:使用DOM或SAX方法,DOM适合小文件,SAX适合大文件。2)生成XML文件:将数据结构转换为XML格式并写入文件。通过这些步骤,可以有效地管理和操作XML数据。

C中的XML:处理复杂的数据结构C中的XML:处理复杂的数据结构May 02, 2025 am 12:04 AM

在C 中处理XML数据结构可以使用TinyXML或pugixml库。1)使用pugixml库解析和生成XML文件。2)处理复杂的嵌套XML元素,如书籍信息。3)优化XML处理代码,建议使用高效库和流式解析。通过这些步骤,可以高效处理XML数据。

C和性能:它仍然主导C和性能:它仍然主导May 01, 2025 am 12:14 AM

C 在性能优化方面仍然占据主导地位,因为其低级内存管理和高效执行能力使其在游戏开发、金融交易系统和嵌入式系统中不可或缺。具体表现为:1)在游戏开发中,C 的低级内存管理和高效执行能力使得它成为游戏引擎开发的首选语言;2)在金融交易系统中,C 的性能优势确保了极低的延迟和高吞吐量;3)在嵌入式系统中,C 的低级内存管理和高效执行能力使得它在资源有限的环境中非常受欢迎。

C XML框架:为您选择合适的一个C XML框架:为您选择合适的一个Apr 30, 2025 am 12:01 AM

C XML框架的选择应基于项目需求。1)TinyXML适合资源受限环境,2)pugixml适用于高性能需求,3)Xerces-C 支持复杂的XMLSchema验证,选择时需考虑性能、易用性和许可证。

C#vs. C:为您的项目选择正确的语言C#vs. C:为您的项目选择正确的语言Apr 29, 2025 am 12:51 AM

C#适合需要开发效率和类型安全的项目,而C 适合需要高性能和硬件控制的项目。 1)C#提供垃圾回收和LINQ,适用于企业应用和Windows开发。 2)C 以高性能和底层控制着称,广泛用于游戏和系统编程。

c  怎么进行代码优化c 怎么进行代码优化Apr 28, 2025 pm 10:27 PM

C 代码优化可以通过以下策略实现:1.手动管理内存以优化使用;2.编写符合编译器优化规则的代码;3.选择合适的算法和数据结构;4.使用内联函数减少调用开销;5.应用模板元编程在编译时优化;6.避免不必要的拷贝,使用移动语义和引用参数;7.正确使用const帮助编译器优化;8.选择合适的数据结构,如std::vector。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中