>백엔드 개발 >C++ >AVX2를 사용하여 메모리의 8개 문자를 압축된 단일 정밀도 부동 소수점으로 __m256 변수에 로드하는 방법은 무엇입니까?

AVX2를 사용하여 메모리의 8개 문자를 압축된 단일 정밀도 부동 소수점으로 __m256 변수에 로드하는 방법은 무엇입니까?

DDD
DDD원래의
2024-10-31 21:43:02803검색

How to Load 8 Characters from Memory into an __m256 Variable as Packed Single Precision Floats Using AVX2?

패킹된 단일 정밀도 부동 소수점으로 메모리의 8개 문자를 __m256 변수에 로드

가우시안 블러 알고리즘에서는 더 빠른 실행을 위한 최적화를 달성할 수 있습니다. 데이터를 벡터 레지스터에 효율적으로 로드함으로써 이러한 최적화 중 하나는 부동 소수점 배열을 __m256 변수로 바꾸는 것입니다. 이 문서에서는 AVX2 명령어의 기능을 활용하여 이 작업에 대한 최적의 솔루션을 제공합니다.

AVX2 명령어를 사용한 솔루션

메모리에서 __m256 변수로 8자를 효과적으로 로드하려면 AVX2를 사용하는 경우 다음 지침을 따르는 것이 좋습니다.

VPMOVZXBD  ymm0,  [rsi]  ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

지침의 세부 사항

  • VPMOVZXBD: 8비트 문자를 32비트 문자로 0 확장합니다. ymm0 레지스터 내의 비트 정수.
  • VCVTDQ2PS: 32비트 정수를 압축된 단정밀도 부동 소수점으로 변환하여 ymm0에 직접 저장합니다.

추가 최적화

이 프로세스를 더욱 최적화하려면 브로드캐스트 로드를 사용하여 VPMOVZXBD 명령어와 상위 64비트에 대한 Vpshufb 명령어를 공급하는 것을 고려하세요. 이 전략은 전체 uop 수를 줄여 효율성을 향상시킵니다.

<code class="pseudocode">__m256 b = [float(new_image[x+7]), float(new_image[x+6]), ... , float(new_image[x])];
__m256 b = _mm256_broadcast_ss(&new_image[x])
_mm256_shuffle_epi8(b, _mm256_set1_epi8(0)); // fills upper 64 bits with zeroes
_mm256_cvtps_epu32(b); // convert to integers
_mm256_cvtepu32_ps(b); // convert back to floats</code>

최적화되지 않은 기술 피하기

  • 여러 128비트 또는 256비트 로드와 불필요한 병목 현상이 발생할 수 있으므로 후속 셔플을 수행하면 불필요한 병목 현상이 발생할 수 있습니다.
  • VPMOVZXD 명령어 뒤에 별도의 메모리 피연산자를 VPMOVZX에 사용하지 마십시오. 최적이 아닌 코드 생성으로 이어질 수 있습니다.

추가 고려 사항

  • 메모리 정렬이나 초기화되지 않은 메모리 액세스와 관련된 잠재적인 문제를 방지하려면 가능한 경우 안전한 내장 함수를 사용하는 것이 좋습니다.
  • 로드를 방지하려면 적절한 _mm_loadl_epi64 또는 _mm_loadu_si64 내장 함수를 사용하세요. 필요한 것보다 더 많은 데이터가 있거나 잠재적인 분할 오류가 발생합니다.

위 내용은 AVX2를 사용하여 메모리의 8개 문자를 압축된 단일 정밀도 부동 소수점으로 __m256 변수에 로드하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.