>백엔드 개발 >C++ >AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?

AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?

DDD
DDD원래의
2024-12-04 14:06:11237검색

How to Efficiently Implement log2(__m256d) in AVX2?

AVX2에서 log2(__m256d)의 효율적인 구현

소개

내장 __m256d _mm256_log2_pd (__m256d a)는 Intel 컴파일러 이상으로 지원되지 않으며 AMD 프로세서에서는 성능이 저하됩니다. 이 문서의 목적은 AVX2 명령어 세트를 사용하여 복식 벡터에 대한 log2()를 계산하기 위한 성능이 뛰어난 크로스 컴파일러 솔루션을 제공하는 것입니다.

접근 방식

일반적인 방법은 다음과 같습니다. log(a*b)를 log(a) log(b)로 나누고 지수 편향을 조정합니다. log2의 경우 결과는 지수 log2(가수)와 동일합니다. 가수 범위(1.0~2.0)가 제한되어 있으므로 log2(가수)에 대한 다항식 근사를 사용할 수 있습니다.

정확도 고려 사항

근사 정확도가 영향을 미칩니다. 상대 오류. 최대 절대 또는 상대 오차를 최소화하려면 단순히 Taylor 계열 확장을 사용하는 것이 아니라 Minimax 피팅을 통해 계수를 조정해야 합니다.

벡터화

AVX2 명령어를 활용하려면 벡터 처리를 위해 설정된 경우 다음 단계가 구현됩니다.

  1. 지수 비트를 추출하고 바이어스 후 부동 소수점으로 변환합니다. 조정.
  2. 가수를 추출하고 지수 조정을 통해 [0.5, 1.0) 범위로 수정합니다.
  3. AVX2 명령을 사용하여 x=1.0 부근에서 정확한 log(x)에 대한 다항식 근사를 활용합니다. FMA를 사용합니다.
  4. 지수와 다항식을 더하여 최종 log2 결과를 계산합니다.
  5. 언더플로, 오버플로 및 비정규 사례에 대한 특수 처리를 통합합니다.

성능 향상

성능을 향상하려면:

  • 고차 다항식 또는 다음의 비율을 사용하세요. 다항식을 사용하여 정밀도를 높입니다.
  • 지수 및 가수 추출과 같은 확장된 기능을 위해 AVX512 지침을 활용하세요.
  • 값이 유한하고

구현

아래 구현에서는 벡터화를 위한 내장 함수와 효율적인 곱셈과 덧셈을 위한 FMA 명령어를 사용합니다.

__m256d Log2(__m256d x) {
  // Extract exponent and adjust bias
  const __m256i exps64 = _mm256_srli_epi64(_mm256_and_si256(gDoubleExpMask, _mm256_castpd_si256(x)), 52);
  const __m256i exps32_avx = _mm256_permutevar8x32_epi32(exps64, gTo32bitExp);
  const __m128i exps32_sse = _mm256_castsi256_si128(exps32_avx);
  const __m128i normExps = _mm_sub_epi32(exps32_sse, gExpNormalizer);
  const __m256d expsPD = _mm256_cvtepi32_pd(normExps);

  // Prepare mantissa
  const __m256d y = _mm256_or_pd(_mm256_castsi256_pd(gDoubleExp0),
    _mm256_andnot_pd(_mm256_castsi256_pd(gDoubleExpMask), x));

  // Calculate t=(y-1)/(y+1) and t**2
  const __m256d tNum = _mm256_sub_pd(y, gVect1);
  const __m256d tDen = _mm256_add_pd(y, gVect1);
  const __m256d t = _mm256_div_pd(tNum, tDen);
  const __m256d t2 = _mm256_mul_pd(t, t); // t**2

  // Calculate terms and final log2
  const __m256d t3 = _mm256_mul_pd(t, t2); // t**3
  const __m256d terms01 = _mm256_fmadd_pd(gCoeff1, t3, t);
  const __m256d t5 = _mm256_mul_pd(t3, t2); // t**5
  const __m256d terms012 = _mm256_fmadd_pd(gCoeff2, t5, terms01);
  const __m256d t7 = _mm256_mul_pd(t5, t2); // t**7
  const __m256d terms0123 = _mm256_fmadd_pd(gCoeff3, t7, terms012);
  const __m256d t9 = _mm256_mul_pd(t7, t2); // t**9
  const __m256d terms01234 = _mm256_fmadd_pd(gCoeff4, t9, terms0123);
  const __m256d log2_y = _mm256_mul_pd(terms01234, gCommMul);
  const __m256d log2_x = _mm256_add_pd(log2_y, expsPD);

  return log2_x;
}

결론

이 구현은 효율적이고 AVX2를 사용한 log2() 계산을 위한 휴대용 솔루션입니다. 속도와 정확성을 모두 최적화함으로써 내장 기능에 대한 크로스 컴파일러 대안을 제공하고 성능을 크게 향상시킬 수 있습니다.

위 내용은 AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.