ホームページ >バックエンド開発 >C++ >AVX2 を使用して log2(__m256d) を効率的に実装するにはどうすればよいですか?

AVX2 を使用して log2(__m256d) を効率的に実装するにはどうすればよいですか?

DDD
DDDオリジナル
2024-11-28 15:18:12593ブラウズ

AVX2 での log2(__m256d) の効率的な実装

はじめに

対数計算は、さまざまな科学および工学アプリケーションで不可欠です。この記事では、Advanced Vector Extensions 2 (AVX2) を使用した 4 要素の倍精度浮動小数点ベクトルに対する効率的な log2() 関数の実装について説明します。

__m256d log2_pd SVML の組み込み

Intel のScalable Vector Math Library (SVML) は組み込み関数 __m256d を提供します_mm256_log2_pd (__m256d a) は、4 ビット ベクトルに対して log2 演算を実行します。ただし、この組み込み関数は Intel コンパイラでのみ使用可能であり、AMD プロセッサではパフォーマンス上の欠点があることが報告されています。

多項式近似

コンパイラ固有の組み込み関数に依存せずに log2() を実装するには、次のようにします。多項式近似を利用します。 log2(x) は、x = 1 の周囲で展開されたテイラー級数として表現できます。より具体的には、複数の多項式項を使用して、[1.0, 2.0] の範囲で log2(仮数部) を近似できます。

実装詳細

次の C 実装は、AVX2 とカスタム多項式近似:

__m256d __vectorcall Log2(__m256d x) {
  // Extract exponent and normalize it

  // Calculate t=(y-1)/(y+1) and t**2
  // Calculate log2(y) and add exponent

  return log2_x;
}

使用された近似式は次のように視覚化できます:

How Can AVX2 Be Used to Efficiently Implement log2(__m256d)?
How Can AVX2 Be Used to Efficiently Implement log2(__m256d)?

多項式係数は次のように適合されました。範囲 [1.0, 2.0].

パフォーマンス分析

ベンチマークは、この実装が std::log2() と std::log() の両方を大幅に上回り、std の約 4 倍のパフォーマンスを達成していることを示しています。 ::log2().

制限事項と考慮事項

実装の精度は、さらに多項式項を追加することで調整できます。ただし、多項式の次数を増やすと浮動小数点演算の数が増加し、パフォーマンスが低下する可能性があります。

結論

提供されている log2() の AVX2 実装は、ベクトル化された対数計算に高い効率とパフォーマンスを提供します。 。この関数は、カスタム多項式近似を活用することにより、4 ビット倍精度浮動小数点ベクトルでの log2 演算のための移植可能で効率的なソリューションを提供します。

以上がAVX2 を使用して log2(__m256d) を効率的に実装するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。