ホームページ >バックエンド開発 >C++ >パックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?

パックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?

Patricia Arquetteオリジナル: 2024-11-03 13:21:30667ブラウズ

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

8 文字をメモリからパックされた単精度浮動小数点として __m256 変数にロード

ガウスぼかしのアルゴリズムを最適化するために、次のようにします。 float バッファの使用を __m256 組み込み変数に置き換えようとします。この質問は、このタスクに最適な命令を決定することを目的としています。

AVX2 アーキテクチャの命令:

PMOVZX を利用して文字を 32 ビットにゼロ拡張します256b レジスタ内の整数。
VCVTDQ2PS を使用してその場で float に変換します。

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

追加の戦略:

128 ビットのブロードキャストロードを使用して、上位 64 ビットの vpmovzxbd ymm,xmm および vpshufb ymm (_mm256_shuffle_epi8) を供給することを検討してください。このアプローチは uop 数を削減し、Ryzen CPU では有益です。
シャッフルがすでに制限されている場合、ボトルネックになる可能性があるため、余分なシャッフル命令の使用は避けてください。

AVX1 アーキテクチャの手順:

次の手順を実行します:

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi+4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

組み込みに関する考慮事項:

GCC および MSVC では、VPMOVZXBD ymm,[mem].
の組み込み関数を使用する場合、最適なコード生成を保証するために特別な処理が必要になる場合があります。
代わりに _mm_loadl_epi64 組み込み関数を使用することを検討してください。 GCC バージョン 9 以降の GCC で -O3 で最適な asm を実現するためのメモリオペランド。

AVX1 のみの最適化の場合、組み込みバージョンの作成は楽しくない作業です。

以上がパックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Float count for require register using Chars this

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Const オブジェクトへの Const ポインターを削除できるのはなぜですか?次の記事：Const オブジェクトへの Const ポインターを削除できるのはなぜですか?

続きを見る