左パッキング問題
入力配列と出力配列があり、条件を満たす特定の要素のみが必要であるというシナリオを考えてみましょう。出力配列に書き込まれます。 AVX2 を使用してこれを実現する最も効率的なアプローチは何ですか?
SSE アプローチ
SSE アプローチでは、_mm_movemask_ps を使用して入力マスクから 4 ビット マスクを抽出します。次に、このマスクを使用して、_mm_load_si128 でシャッフル コントロール データを生成します。最後に、_mm_shuffle_epi8 を使用して値を並べ替え、SIMD レジスタの先頭に有効な要素を配置します。このアプローチは、16 エントリのルックアップ テーブル (LUT) を備えた 4 ワイド SSE ベクトルに適しています。
AVX の制限
ただし、8 ワイド AVX の場合は、ベクトルの場合、LUT はそれぞれ 32 バイトの非常に多くのエントリ (256) を必要とし、結果として 8k のメモリ使用量が発生します。 AVX が、パッキングによるマスクされたストアなど、このプロセスを簡素化するための命令を提供していないことは驚くべきことです。
AVX2 ソリューション
専用の命令がないにもかかわらずを組み合わせて使用すると、AVX2 で効率的な左パッキングを実現できます。テクニック:
- 変数シャッフルに vpermps を使用する: _mm256_permutevar8x32_ps を使用すると、レーン交差変数シャッフルを実行でき、マスクに基づいてデータをパックできます。
- その場でマスクを生成します: BMI2 は、入力マスクからビットを抽出し、シャッフル制御データを生成するために使用できる pext (Parallel Bits Extract) 命令を提供します。
- AMD CPU では pdep/pext を使用しないでください: AMD Zen 3 より前の CPU では、pdep と pext のレイテンシが大幅に高くなるため、最適化するには代替アプローチが必要になる場合があります。パフォーマンス。
アルゴリズム
AVX2 の左パッキングのアルゴリズムには、次の手順が含まれます。
- 入力からインデックスを抽出するpext を使用してマスクします。
- インデックスをアンパックしてシャッフルを生成しますマスク。
- vpermps を使用して、シャッフル マスクに従って入力データをシャッフルします。
結論
このアプローチは、非常に効率的なソリューションを提供します。 AVX2の左パッキン用。 vpermps、pext、およびその他の BMI2 命令を利用することで、最小限のオーバーヘッドと遅延でマスクに基づいてデータをパックすることができます。
以上がマスクを付けたままの梱包で AVX2 を最も効率的に使用するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

この記事では、c関数のリターンタイプ、基本(int、float、charなど)、派生(配列、ポインター、構造体)、およびvoid型を含む詳細を示します。 コンパイラは、関数宣言とreturnステートメントを介して返品タイプを決定し、強制します

GULCは、最小限のオーバーヘッド、積極的なインライン、およびコンパイラの最適化を優先する高性能Cライブラリです。 高周波取引や組み込みシステムなどのパフォーマンスクリティカルなアプリケーションに最適な設計では、シンプルさ、モジュールが強調されています

この記事では、C関数宣言と定義、引数の合格(価値とポインターによる)、返品値、およびメモリリークやタイプの不一致などの一般的な落とし穴について説明します。 モジュール性とProviの宣言の重要性を強調しています

この記事では、文字列ケース変換のC関数について詳しく説明しています。 ctype.hのtoupper()とtolower()を使用し、文字列を介して繰り返し、ヌルターミネーターを処理することを説明しています。 ctype.hを忘れたり、文字列リテラルを変更するなどの一般的な落とし穴は

この記事では、C関数の戻り値ストレージを調べます。 通常、リターン値は通常、速度のためにレジスタに保存されます。値が大きいと、ポインターをメモリ(スタックまたはヒープ)に使用し、寿命に影響を与え、手動のメモリ管理が必要になります。直接acc

この記事では、形容詞の「個別」の多面的な使用法を分析し、その文法機能、一般的なフレーズ(例:「はっきりと異なる」とは異なる」、およびフォーマルと非公式の微妙なアプリケーションを調査します。

この記事では、cの効率的なSTLアルゴリズムの使用について詳しく説明しています。 データ構造の選択(ベクトル対リスト)、アルゴリズムの複雑さ分析(STD :: STD :: STD :: PARTIAL_SORTなど)、イテレーターの使用、および並列実行を強調しています。 のような一般的な落とし穴

この記事では、C標準テンプレートライブラリ(STL)について説明し、そのコアコンポーネント(コンテナ、イテレーター、アルゴリズム、およびファンクター)に焦点を当てています。 これらが一般的なプログラミングを有効にし、コード効率を向上させ、読みやすさを改善する方法を詳述しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール
