首页 >后端开发 >C++ >如何使用 AVX2 将 8 个字符从内存加载到 __m256 变量作为打包单精度浮点数?

如何使用 AVX2 将 8 个字符从内存加载到 __m256 变量作为打包单精度浮点数?

DDD
DDD原创
2024-10-31 21:43:02810浏览

How to Load 8 Characters from Memory into an __m256 Variable as Packed Single Precision Floats Using AVX2?

将 8 个字符从内存加载到 __m256 变量中作为打包单精度浮点数

在高斯模糊算法中,可以实现优化以加快执行速度通过有效地将数据加载到向量寄存器中。其中一种优化涉及用 __m256 变量替换浮点数组。本文利用 AVX2 指令的强大功能,为此任务提供了最佳解决方案。

使用 AVX2 指令的解决方案

有效地将 8 个字符从内存加载到 __m256 变量中使用 AVX2,建议使用以下指令:

VPMOVZXBD  ymm0,  [rsi]  ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

指令细节

  • VPMOVZXBD:将 8 位字符零扩展到 32 位ymm0 寄存器中的位整数。
  • VCVTDQ2PS:将 32 位整数转换为压缩单精度浮点数,直接存储在 ymm0 中。

其他优化

要进一步优化此过程,请考虑使用广播负载来馈送 VPMOVZXBD 指令和高 64 位的 Vpshufb 指令。此策略减少了总体 uop 计数,提高了效率:

<code class="pseudocode">__m256 b = [float(new_image[x+7]), float(new_image[x+6]), ... , float(new_image[x])];
__m256 b = _mm256_broadcast_ss(&new_image[x])
_mm256_shuffle_epi8(b, _mm256_set1_epi8(0)); // fills upper 64 bits with zeroes
_mm256_cvtps_epu32(b); // convert to integers
_mm256_cvtepu32_ps(b); // convert back to floats</code>

避免次优技术

  • 避免使用多个 128 位或 256 位加载和后续洗牌,因为它可能会引入不必要的瓶颈。
  • 不要使用 VPMOVZXD 指令,后跟 VPMOVZX 的单独内存操作数,因为它会导致代码生成不理想。

其他注意事项

  • 考虑使用安全的内部函数(如果有),以避免内存对齐或访问未初始化内存的潜在问题。
  • 使用适当的 _mm_loadl_epi64 或 _mm_loadu_si64 内部函数以避免加载数据过多或导致潜在的分段错误。

以上是如何使用 AVX2 将 8 个字符从内存加载到 __m256 变量作为打包单精度浮点数?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn