検索
ホームページバックエンド開発C++マスクを付けたままの梱包で AVX2 を最も効率的に使用するにはどうすればよいですか?

How Can AVX2 Be Used Most Efficiently for Left Packing with a Mask?

左パッキング問題

入力配列と出力配列があり、条件を満たす特定の要素のみが必要であるというシナリオを考えてみましょう。出力配列に書き込まれます。 AVX2 を使用してこれを実現する最も効率的なアプローチは何ですか?

SSE アプローチ

SSE アプローチでは、_mm_movemask_ps を使用して入力マスクから 4 ビット マスクを抽出します。次に、このマスクを使用して、_mm_load_si128 でシャッフル コントロール データを生成します。最後に、_mm_shuffle_epi8 を使用して値を並べ替え、SIMD レジスタの先頭に有効な要素を配置します。このアプローチは、16 エントリのルックアップ テーブル (LUT) を備えた 4 ワイド SSE ベクトルに適しています。

AVX の制限

ただし、8 ワイド AVX の場合は、ベクトルの場合、LUT はそれぞれ 32 バイトの非常に多くのエントリ (256) を必要とし、結果として 8k のメモリ使用量が発生します。 AVX が、パッキングによるマスクされたストアなど、このプロセスを簡素化するための命令を提供していないことは驚くべきことです。

AVX2 ソリューション

専用の命令がないにもかかわらずを組み合わせて使用​​すると、AVX2 で効率的な左パッキングを実現できます。テクニック:

  • 変数シャッフルに vpermps を使用する: _mm256_permutevar8x32_ps を使用すると、レーン交差変数シャッフルを実行でき、マスクに基づいてデータをパックできます。
  • その場でマスクを生成します: BMI2 は、入力マスクからビットを抽出し、シャッフル制御データを生成するために使用できる pext (Parallel Bits Extract) 命令を提供します。
  • AMD CPU では pdep/pext を使用しないでください: AMD Zen 3 より前の CPU では、pdep と pext のレイテンシが大幅に高くなるため、最適化するには代替アプローチが必要になる場合があります。パフォーマンス。

アルゴリズム

AVX2 の左パッキングのアルゴリズムには、次の手順が含まれます。

  1. 入力からインデックスを抽出するpext を使用してマスクします。
  2. インデックスをアンパックしてシャッフルを生成しますマスク。
  3. vpermps を使用して、シャッフル マスクに従って入力データをシャッフルします。

結論

このアプローチは、非常に効率的なソリューションを提供します。 AVX2の左パッキン用。 vpermps、pext、およびその他の BMI2 命令を利用することで、最小限のオーバーヘッドと遅延でマスクに基づいてデータをパックすることができます。

以上がマスクを付けたままの梱包で AVX2 を最も効率的に使用するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
C言語関数によって返される値の種類は何ですか?返品値を決定するものは何ですか?C言語関数によって返される値の種類は何ですか?返品値を決定するものは何ですか?Mar 03, 2025 pm 05:52 PM

この記事では、c関数のリターンタイプ、基本(int、float、charなど)、派生(配列、ポインター、構造体)、およびvoid型を含む詳細を示します。 コンパイラは、関数宣言とreturnステートメントを介して返品タイプを決定し、強制します

GULC:Cライブラリはゼロから構築されていますGULC:Cライブラリはゼロから構築されていますMar 03, 2025 pm 05:46 PM

GULCは、最小限のオーバーヘッド、積極的なインライン、およびコンパイラの最適化を優先する高性能Cライブラリです。 高周波取引や組み込みシステムなどのパフォーマンスクリティカルなアプリケーションに最適な設計では、シンプルさ、モジュールが強調されています

C言語関数の定義と呼び出しルールは何ですか、そしてC言語関数の定義と呼び出しルールは何ですか、そしてMar 03, 2025 pm 05:53 PM

この記事では、C関数宣言と定義、引数の合格(価値とポインターによる)、返品値、およびメモリリークやタイプの不一致などの一般的な落とし穴について説明します。 モジュール性とProviの宣言の重要性を強調しています

c言語関数形式文字ケース変換手順c言語関数形式文字ケース変換手順Mar 03, 2025 pm 05:53 PM

この記事では、文字列ケース変換のC関数について詳しく説明しています。 ctype.hのtoupper()とtolower()を使用し、文字列を介して繰り返し、ヌルターミネーターを処理することを説明しています。 ctype.hを忘れたり、文字列リテラルを変更するなどの一般的な落とし穴は

メモリに保存されているC言語関数の返品値はどこにありますか?メモリに保存されているC言語関数の返品値はどこにありますか?Mar 03, 2025 pm 05:51 PM

この記事では、C関数の戻り値ストレージを調べます。 通常、リターン値は通常、速度のためにレジスタに保存されます。値が大きいと、ポインターをメモリ(スタックまたはヒープ)に使用し、寿命に影響を与え、手動のメモリ管理が必要になります。直接acc

明確な使用法とフレーズ共有明確な使用法とフレーズ共有Mar 03, 2025 pm 05:51 PM

この記事では、形容詞の「個別」の多面的な使用法を分析し、その文法機能、一般的なフレーズ(例:「はっきりと異なる」とは異なる」、およびフォーマルと非公式の微妙なアプリケーションを調査します。

STL(ソート、検索、変換など)のアルゴリズムを効率的に使用するにはどうすればよいですか?STL(ソート、検索、変換など)のアルゴリズムを効率的に使用するにはどうすればよいですか?Mar 12, 2025 pm 04:52 PM

この記事では、cの効率的なSTLアルゴリズムの使用について詳しく説明しています。 データ構造の選択(ベクトル対リスト)、アルゴリズムの複雑さ分析(STD :: STD :: STD :: PARTIAL_SORTなど)、イテレーターの使用、および並列実行を強調しています。 のような一般的な落とし穴

C標準テンプレートライブラリ(STL)はどのように機能しますか?C標準テンプレートライブラリ(STL)はどのように機能しますか?Mar 12, 2025 pm 04:50 PM

この記事では、C標準テンプレートライブラリ(STL)について説明し、そのコアコンポーネント(コンテナ、イテレーター、アルゴリズム、およびファンクター)に焦点を当てています。 これらが一般的なプログラミングを有効にし、コード効率を向上させ、読みやすさを改善する方法を詳述しています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール