検索
ホームページバックエンド開発C++Intel プロセッサと AMD プロセッサの両方で AVX2 に log2(__m256d) を効率的に実装するにはどうすればよいですか?

How Can We Efficiently Implement log2(__m256d) in AVX2 for Both Intel and AMD Processors?

AVX2 での log2(__m256d) の効率的な実装

SVML の __m256d _mm256_log2_pd (__m256d a) は Intel コンパイラに限定されており、AMD プロセッサでは速度が低下すると報告されています。代替実装は存在しますが、多くの場合、AVX2 ではなく SSE に重点が置かれています。この説明の目的は、さまざまなコンパイラと互換性があり、AMD プロセッサと Intel プロセッサの両方で良好に動作する、4 つの倍精度数値のベクトルに対する log2() の効率的な実装を提供することです。

従来の戦略

通常のアプローチでは、公式 log2(a*b) = log2(a) log2(b) を活用し、指数に単純化します。倍精度数値の場合は log2(仮数)。仮数の範囲は 1.0 ~ 2.0 に制限されており、log2(仮数) を取得するための多項式近似に適しています。

精度と精度

必要な精度と精度入力の範囲は実装に影響します。 Agner Fog の VCL は、エラー回避技術を使用して高精度を目指しています。ただし、近似 float log() を高速化するには、JRF の多項式実装を検討してください (こちら: http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials.html)。

VCL アルゴリズム

VCL log float 関数と double 関数は 2 つの部分からなるアプローチに従います:

  1. 指数と仮数の抽出: 指数は float に変換され、仮数は次のチェックで調整されます。 SQRT2*0.5 より小さい値。これに続いて、仮数から 1.0 が減算されます。
  2. 多項式近似: 調整された仮数に多項式近似が適用され、x=1.0 付近の log(x) が計算されます。倍精度の場合、VCL は 2 つの 5 次多項式の比率を使用します。

最終結果は、多項式近似に指数を加算することによって取得されます。 VCL には、丸め誤差を最小限に抑えるための追加の手順が含まれています。

代替多項式近似

精度を高めるために、VCL を直接使用できます。ただし、float の近似 log2() 実装を高速化するには、JRF の SSE2 関数を FMA を使用して AVX2 に移植することを検討してください。

丸め誤差の回避

VCL はさまざまな手法を使用して丸め誤差を軽減します。丸め誤差。

  • ln2 をより小さな定数 (ln2_lo と ln2_hi) に分割する
  • 行 res = nmul_add(x2, 0.5, x); を追加します。多項式評価へ

不要なステップの削除

値が有限で正であることがわかっている場合、次のチェックをコメントアウトすることでパフォーマンスを大幅に向上させることができます。アンダーフロー、オーバーフロー、または非正規化。

さらに読書

  • [ミニマックス誤差を伴う多項式近似](http://gallium.inria.fr/blog/fast-vectorizable-math-estimate/)
  • [ビットを使用した高速近似対数]操作](http://www.machinedlearnings.com/2011/06/fast-estimate-logarithm-exponential.html)

以上がIntel プロセッサと AMD プロセッサの両方で AVX2 に log2(__m256d) を効率的に実装するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
C標準テンプレートライブラリ(STL)はどのように機能しますか?C標準テンプレートライブラリ(STL)はどのように機能しますか?Mar 12, 2025 pm 04:50 PM

この記事では、C標準テンプレートライブラリ(STL)について説明し、そのコアコンポーネント(コンテナ、イテレーター、アルゴリズム、およびファンクター)に焦点を当てています。 これらが一般的なプログラミングを有効にし、コード効率を向上させ、読みやすさを改善する方法を詳述しています。

STL(ソート、検索、変換など)のアルゴリズムを効率的に使用するにはどうすればよいですか?STL(ソート、検索、変換など)のアルゴリズムを効率的に使用するにはどうすればよいですか?Mar 12, 2025 pm 04:52 PM

この記事では、cの効率的なSTLアルゴリズムの使用について詳しく説明しています。 データ構造の選択(ベクトル対リスト)、アルゴリズムの複雑さ分析(STD :: STD :: STD :: PARTIAL_SORTなど)、イテレーターの使用、および並列実行を強調しています。 のような一般的な落とし穴

cで例外を効果的に処理するにはどうすればよいですか?cで例外を効果的に処理するにはどうすればよいですか?Mar 12, 2025 pm 04:56 PM

この記事では、Cでの効果的な例外処理、トライ、キャッチ、スローメカニックをカバーしています。 RAIIなどのベストプラクティス、不必要なキャッチブロックを避け、ログの例外をロギングすることを強調しています。 この記事では、パフォーマンスについても説明しています

パフォーマンスを改善するために、CのMove Semanticsを使用するにはどうすればよいですか?パフォーマンスを改善するために、CのMove Semanticsを使用するにはどうすればよいですか?Mar 18, 2025 pm 03:27 PM

この記事では、不必要なコピーを回避することにより、パフォーマンスを向上させるために、CのMove Semanticsを使用することについて説明します。 STD :: MOVEを使用して、移動コンストラクターと割り当てオペレーターの実装をカバーし、効果的なAPPLの重要なシナリオと落とし穴を識別します

cでRValue参照を効果的に使用するにはどうすればよいですか?cでRValue参照を効果的に使用するにはどうすればよいですか?Mar 18, 2025 pm 03:29 PM

記事では、移動セマンティクス、完璧な転送、リソース管理のためのcでのr値参照の効果的な使用について説明し、ベストプラクティスとパフォーマンスの改善を強調しています。(159文字)

より表現力のあるデータ操作のために、C 20の範囲を使用するにはどうすればよいですか?より表現力のあるデータ操作のために、C 20の範囲を使用するにはどうすればよいですか?Mar 17, 2025 pm 12:58 PM

C 20の範囲は、表現力、複合性、効率を伴うデータ操作を強化します。複雑な変換を簡素化し、既存のコードベースに統合して、パフォーマンスと保守性を向上させます。

動的ディスパッチはCでどのように機能し、パフォーマンスにどのように影響しますか?動的ディスパッチはCでどのように機能し、パフォーマンスにどのように影響しますか?Mar 17, 2025 pm 01:08 PM

この記事では、Cでの動的発送、そのパフォーマンスコスト、および最適化戦略について説明します。動的ディスパッチがパフォーマンスに影響を与え、静的ディスパッチと比較するシナリオを強調し、パフォーマンスとパフォーマンスのトレードオフを強調します

C言語データ構造:ツリーとグラフのデータ表現と操作C言語データ構造:ツリーとグラフのデータ表現と操作Apr 04, 2025 am 11:18 AM

C言語データ構造:ツリーとグラフのデータ表現は、ノードからなる階層データ構造です。各ノードには、データ要素と子ノードへのポインターが含まれています。バイナリツリーは特別なタイプの木です。各ノードには、最大2つの子ノードがあります。データは、structreenode {intdata; structreenode*left; structreenode*右;}を表します。操作は、ツリートラバーサルツリー(前向き、順序、および後期)を作成します。検索ツリー挿入ノード削除ノードグラフは、要素が頂点であるデータ構造のコレクションであり、近隣を表す右または未照明のデータを持つエッジを介して接続できます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン