首頁 >後端開發 >C++ >如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？

如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？

Patricia Arquette原創: 2024-11-03 13:21:30659瀏覽

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

將8 個字元從記憶體載入到__m256 變數中作為打包單精確度浮點數

為了優化高斯模糊演算法，您尋求用__m256 內在變數取代浮點緩衝區的使用。本問題旨在確定此任務的最佳指令。

AVX2 架構說明：

利用 PMOVZX 將字元零擴充為 32 位元256b 暫存器中的整數。
使用 VCVTDQ2PS 就地轉換為浮點數。

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

其他策略：

考慮使用128 位元廣播負載來提供高64 位元vpmovzxbd ymm,xmm 和 (pshu mmmmmmmm _mm256_shuffle_epi8)。這種方法減少了 uop 數量，對 Ryzen CPU 很有好處。
避免使用額外的 shuffle 指令，因為當 shuffle 已經成為限制時，它們可能會成為瓶頸。

AVX1 架構說明：

執行下列步驟：

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi+4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

執行下列步驟：

執行以下步驟

GCC 和MSVC 可能需要特殊處理，以確保在使用VPMOVZXBD ymm,[mem] 的內部函數時產生最佳程式碼。
考慮使用 _mm_loadl_epi64 內部函數，它可以折疊到在 GCC 版本 9 及更高版本上使用 GCC 在 -O3 處實現最佳 asm 的內存操作數。

對於僅限 AVX1 的最佳化，編寫內在函數版本是一項無趣的練習。

以上是如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Float count for require register using Chars this

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：為什麼我們可以刪除指向 const 物件的 const 指標？下一篇：為什麼我們可以刪除指向 const 物件的 const 指標？

看更多