首页 >后端开发 >C++ >如何将 8 个字符作为打包单精度浮点数加载到 __m256 变量中?

如何将 8 个字符作为打包单精度浮点数加载到 __m256 变量中?

Patricia Arquette
Patricia Arquette原创
2024-11-03 13:21:30659浏览

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

将 8 个字符从内存加载到 __m256 变量中作为打包单精度浮点数

为了优化高斯模糊算法,您寻求用 __m256 内在变量替换浮点缓冲区的使用。本问题旨在确定此任务的最佳指令。

AVX2 架构说明:

  • 利用 PMOVZX 将字符零扩展为 32 位256b 寄存器中的整数。
  • 使用 VCVTDQ2PS 就地转换为浮点数。
; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

其他策略:

  • 考虑使用 128 位广播负载来为高 64 位提供 vpmovzxbd ymm,xmm 和 vpshufb ymm (_mm256_shuffle_epi8)。这种方法减少了 uop 数量,对 Ryzen CPU 很有好处。
  • 避免使用额外的 shuffle 指令,因为当 shuffle 已经成为限制时,它们可能会成为瓶颈。

AVX1 架构说明:

  • 执行以下步骤:

    VPMOVZXBD   xmm0,  [rsi]
    VPMOVZXBD   xmm1,  [rsi+4]
    VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
    VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

内在注意事项:

  • GCC 和 MSVC 可能需要特殊处理,以确保在使用 VPMOVZXBD ymm,[mem] 的内部函数时生成最佳代码。
  • 考虑使用 _mm_loadl_epi64 内部函数,它可以折叠到在 GCC 版本 9 及更高版本上使用 GCC 在 -O3 处实现最佳 asm 的内存操作数。
  • 对于仅限 AVX1 的优化,编写内在函数版本是一项无趣的练习。

以上是如何将 8 个字符作为打包单精度浮点数加载到 __m256 变量中?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn