AVX2和BMI2指令如何基於遮罩優化左包裝？-C++-PHP中文網

首頁

後端開發

C++

AVX2和BMI2指令如何基於遮罩優化左包裝？

Barbara Streisand

Dec 30, 2024 pm 01:45 PM

How Can AVX2 and BMI2 Instructions Optimize Left Packing Based on a Mask?

使用AVX2 和BMI2 基於掩碼進行高效左打包

在AVX2 中，我們可以利用車道vpermps (_mm256_permute8x32_ps交叉可變洗牌。此外，BMI2 為我們提供了 pext（平行位提取），使我們能夠執行對我們的問題至關重要的位元提取操作。

演算法：

開始儲存壓縮 3 位元索引的常數 ([7 6 5 4 3 2 1 0])。
使用 pext 將所需索引提取到連續序列中。
產生一個掩碼，其中每一位對應一個索引位元組（每個位元組解包一個索引）。
複製掩碼中的每個位元以填充其對應的位元組。
使用以下方法從身分洗牌中提取所需的索引pext。
將索引位元組轉換為 32 位元整數。
使用 vpermps 基於 32 位元索引向量執行 shuffle。

代碼實現：

#include <stdint.h>
#include <immintrin.h>

__m256 compress256(__m256 src, unsigned int mask)
{
  uint64_t expanded_mask = _pdep_u64(mask, 0x0101010101010101);
  expanded_mask *= 0xFF;
  const uint64_t identity_indices = 0x0706050403020100;
  uint64_t wanted_indices = _pext_u64(identity_indices, expanded_mask);

  __m128i bytevec = _mm_cvtsi64_si128(wanted_indices);
  __m256i shufmask = _mm256_cvtepu8_epi32(bytevec);

  return _mm256_permutevar8x32_ps(src, shufmask);
}</immintrin.h></stdint.h>

優點：

使用立即常量並避免內存負載。
簡單和

缺點：

由於pdep/pext 效能較慢，在Zen 3 之前的AMD CPU 上可能會較慢。

以上是AVX2和BMI2指令如何基於遮罩優化左包裝？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

從XML到C：數據轉換和操縱Apr 16, 2025 am 12:08 AM

從XML轉換到C 並進行數據操作可以通過以下步驟實現：1)使用tinyxml2庫解析XML文件，2)將數據映射到C 的數據結構中，3)使用C 標準庫如std::vector進行數據操作。通過這些步驟，可以高效地處理和操作從XML轉換過來的數據。

C＃vs. C：內存管理和垃圾收集Apr 15, 2025 am 12:16 AM

C#使用自動垃圾回收機制，而C 採用手動內存管理。 1.C#的垃圾回收器自動管理內存，減少內存洩漏風險，但可能導致性能下降。 2.C 提供靈活的內存控制，適合需要精細管理的應用，但需謹慎處理以避免內存洩漏。

超越炒作：評估當今C的相關性Apr 14, 2025 am 12:01 AM

C 在現代編程中仍然具有重要相關性。 1)高性能和硬件直接操作能力使其在遊戲開發、嵌入式系統和高性能計算等領域佔據首選地位。 2)豐富的編程範式和現代特性如智能指針和模板編程增強了其靈活性和效率，儘管學習曲線陡峭，但其強大功能使其在今天的編程生態中依然重要。

C社區：資源，支持和發展Apr 13, 2025 am 12:01 AM

C 學習者和開發者可以從StackOverflow、Reddit的r/cpp社區、Coursera和edX的課程、GitHub上的開源項目、專業諮詢服務以及CppCon等會議中獲得資源和支持。 1.StackOverflow提供技術問題的解答；2.Reddit的r/cpp社區分享最新資訊；3.Coursera和edX提供正式的C 課程；4.GitHub上的開源項目如LLVM和Boost提陞技能；5.專業諮詢服務如JetBrains和Perforce提供技術支持；6.CppCon等會議有助於職業