AVX2 での log2(__m256d) の効率的な実装
SVML の __m256d _mm256_log2_pd (__m256d a) は Intel コンパイラに限定されており、AMD プロセッサでは速度が低下すると報告されています。代替実装は存在しますが、多くの場合、AVX2 ではなく SSE に重点が置かれています。この説明の目的は、さまざまなコンパイラと互換性があり、AMD プロセッサと Intel プロセッサの両方で良好に動作する、4 つの倍精度数値のベクトルに対する log2() の効率的な実装を提供することです。
従来の戦略
通常のアプローチでは、公式 log2(a*b) = log2(a) log2(b) を活用し、指数に単純化します。倍精度数値の場合は log2(仮数)。仮数の範囲は 1.0 ~ 2.0 に制限されており、log2(仮数) を取得するための多項式近似に適しています。
精度と精度
必要な精度と精度入力の範囲は実装に影響します。 Agner Fog の VCL は、エラー回避技術を使用して高精度を目指しています。ただし、近似 float log() を高速化するには、JRF の多項式実装を検討してください (こちら: http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials.html)。
VCL アルゴリズム
VCL log float 関数と double 関数は 2 つの部分からなるアプローチに従います:
- 指数と仮数の抽出: 指数は float に変換され、仮数は次のチェックで調整されます。 SQRT2*0.5 より小さい値。これに続いて、仮数から 1.0 が減算されます。
- 多項式近似: 調整された仮数に多項式近似が適用され、x=1.0 付近の log(x) が計算されます。倍精度の場合、VCL は 2 つの 5 次多項式の比率を使用します。
最終結果は、多項式近似に指数を加算することによって取得されます。 VCL には、丸め誤差を最小限に抑えるための追加の手順が含まれています。
代替多項式近似
精度を高めるために、VCL を直接使用できます。ただし、float の近似 log2() 実装を高速化するには、JRF の SSE2 関数を FMA を使用して AVX2 に移植することを検討してください。
丸め誤差の回避
VCL はさまざまな手法を使用して丸め誤差を軽減します。丸め誤差。
- ln2 をより小さな定数 (ln2_lo と ln2_hi) に分割する
- 行 res = nmul_add(x2, 0.5, x); を追加します。多項式評価へ
不要なステップの削除
値が有限で正であることがわかっている場合、次のチェックをコメントアウトすることでパフォーマンスを大幅に向上させることができます。アンダーフロー、オーバーフロー、または非正規化。
さらに読書
- [ミニマックス誤差を伴う多項式近似](http://gallium.inria.fr/blog/fast-vectorizable-math-estimate/)
- [ビットを使用した高速近似対数]操作](http://www.machinedlearnings.com/2011/06/fast-estimate-logarithm-exponential.html)
以上がIntel プロセッサと AMD プロセッサの両方で AVX2 に log2(__m256d) を効率的に実装するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

この記事では、C標準テンプレートライブラリ(STL)について説明し、そのコアコンポーネント(コンテナ、イテレーター、アルゴリズム、およびファンクター)に焦点を当てています。 これらが一般的なプログラミングを有効にし、コード効率を向上させ、読みやすさを改善する方法を詳述しています。

この記事では、cの効率的なSTLアルゴリズムの使用について詳しく説明しています。 データ構造の選択(ベクトル対リスト)、アルゴリズムの複雑さ分析(STD :: STD :: STD :: PARTIAL_SORTなど)、イテレーターの使用、および並列実行を強調しています。 のような一般的な落とし穴

この記事では、Cでの効果的な例外処理、トライ、キャッチ、スローメカニックをカバーしています。 RAIIなどのベストプラクティス、不必要なキャッチブロックを避け、ログの例外をロギングすることを強調しています。 この記事では、パフォーマンスについても説明しています

この記事では、不必要なコピーを回避することにより、パフォーマンスを向上させるために、CのMove Semanticsを使用することについて説明します。 STD :: MOVEを使用して、移動コンストラクターと割り当てオペレーターの実装をカバーし、効果的なAPPLの重要なシナリオと落とし穴を識別します

記事では、移動セマンティクス、完璧な転送、リソース管理のためのcでのr値参照の効果的な使用について説明し、ベストプラクティスとパフォーマンスの改善を強調しています。(159文字)

C 20の範囲は、表現力、複合性、効率を伴うデータ操作を強化します。複雑な変換を簡素化し、既存のコードベースに統合して、パフォーマンスと保守性を向上させます。

この記事では、Cでの動的発送、そのパフォーマンスコスト、および最適化戦略について説明します。動的ディスパッチがパフォーマンスに影響を与え、静的ディスパッチと比較するシナリオを強調し、パフォーマンスとパフォーマンスのトレードオフを強調します

C言語データ構造:ツリーとグラフのデータ表現は、ノードからなる階層データ構造です。各ノードには、データ要素と子ノードへのポインターが含まれています。バイナリツリーは特別なタイプの木です。各ノードには、最大2つの子ノードがあります。データは、structreenode {intdata; structreenode*left; structreenode*右;}を表します。操作は、ツリートラバーサルツリー(前向き、順序、および後期)を作成します。検索ツリー挿入ノード削除ノードグラフは、要素が頂点であるデータ構造のコレクションであり、近隣を表す右または未照明のデータを持つエッジを介して接続できます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ホットトピック



