搜索
首页后端开发C++如何最有效地使用 AVX2 进行带有面罩的左包装?

How Can AVX2 Be Used Most Efficiently for Left Packing with a Mask?

左包装问题

考虑有一个输入数组和一个输出数组,但只需要满足某些条件的元素的情况写入输出数组。使用 AVX2 实现此目的最有效的方法是什么?

SSE 方法

SSE 方法涉及使用 _mm_movemask_ps 从输入掩码中提取 4 位掩码,然后使用此掩码通过 _mm_load_si128 生成随机播放控制数据。最后,使用 _mm_shuffle_epi8 来排列值以对齐 SIMD 寄存器前面的有效元素。此方法适用于具有 16 项查找表 (LUT) 的 4 宽 SSE 向量。

AVX 限制

但是,对于 8 宽 AVX向量,LUT 将需要大量的条目 (256),每个条目有 32 字节,从而导致 8k 的内存使用量。令人惊讶的是,AVX 没有提供简化此过程的说明,例如带包装的蒙面商店。

AVX2 解决方案

尽管缺乏专门的说明,可以使用以下组合在 AVX2 中实现高效的左打包技巧:

  • 使用 vpermps 进行变量洗牌: _mm256_permutevar8x32_ps 可用于执行跨车道变量洗牌,允许根据掩码打包数据。
  • 动态生成蒙版: BMI2 提供了 pext(并行位提取)指令,可用于从输入掩码中提取位并生成随机控制数据。
  • 在 AMD CPU 上避免使用 pdep/pext: AMD Zen 3 之前的 CPU 的 pdep 和 pext 延迟明显更高,因此可能需要替代方法才能实现最佳效果

算法

AVX2 中的左打包算法涉及以下步骤:

  1. 从输入中提取索引使用 pext 进行掩码。
  2. 解压索引以生成随机播放mask。
  3. 使用 vpermps 根据 shuffle mask 对输入数据进行 shuffle。

结论

这种方法提供了一种高效的解决方案用于 AVX2 中的左包装。通过利用 vpermps、pext 和其他 BMI2 指令,可以以最小的开销和延迟基于掩码打包数据。

以上是如何最有效地使用 AVX2 进行带有面罩的左包装?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
C在现代世界中:应用和行业C在现代世界中:应用和行业Apr 23, 2025 am 12:10 AM

C 在现代世界中的应用广泛且重要。1)在游戏开发中,C 因其高性能和多态性被广泛使用,如UnrealEngine和Unity。2)在金融交易系统中,C 的低延迟和高吞吐量使其成为首选,适用于高频交易和实时数据分析。

C XML库:比较和对比选项C XML库:比较和对比选项Apr 22, 2025 am 12:05 AM

C 中有四种常用的XML库:TinyXML-2、PugiXML、Xerces-C 和RapidXML。1.TinyXML-2适合资源有限的环境,轻量但功能有限。2.PugiXML快速且支持XPath查询,适用于复杂XML结构。3.Xerces-C 功能强大,支持DOM和SAX解析,适用于复杂处理。4.RapidXML专注于性能,解析速度极快,但不支持XPath查询。

C和XML:探索关系和支持C和XML:探索关系和支持Apr 21, 2025 am 12:02 AM

C 通过第三方库(如TinyXML、Pugixml、Xerces-C )与XML交互。1)使用库解析XML文件,将其转换为C 可处理的数据结构。2)生成XML时,将C 数据结构转换为XML格式。3)在实际应用中,XML常用于配置文件和数据交换,提升开发效率。

C#vs. C:了解关键差异和相似之处C#vs. C:了解关键差异和相似之处Apr 20, 2025 am 12:03 AM

C#和C 的主要区别在于语法、性能和应用场景。1)C#语法更简洁,支持垃圾回收,适用于.NET框架开发。2)C 性能更高,需手动管理内存,常用于系统编程和游戏开发。

C#与C:历史,进化和未来前景C#与C:历史,进化和未来前景Apr 19, 2025 am 12:07 AM

C#和C 的历史与演变各有特色,未来前景也不同。1.C 由BjarneStroustrup在1983年发明,旨在将面向对象编程引入C语言,其演变历程包括多次标准化,如C 11引入auto关键字和lambda表达式,C 20引入概念和协程,未来将专注于性能和系统级编程。2.C#由微软在2000年发布,结合C 和Java的优点,其演变注重简洁性和生产力,如C#2.0引入泛型,C#5.0引入异步编程,未来将专注于开发者的生产力和云计算。

C#vs. C:学习曲线和开发人员的经验C#vs. C:学习曲线和开发人员的经验Apr 18, 2025 am 12:13 AM

C#和C 的学习曲线和开发者体验有显着差异。 1)C#的学习曲线较平缓,适合快速开发和企业级应用。 2)C 的学习曲线较陡峭,适用于高性能和低级控制的场景。

C#vs. C:面向对象的编程和功能C#vs. C:面向对象的编程和功能Apr 17, 2025 am 12:02 AM

C#和C 在面向对象编程(OOP)中的实现方式和特性上有显着差异。 1)C#的类定义和语法更为简洁,支持如LINQ等高级特性。 2)C 提供更细粒度的控制,适用于系统编程和高性能需求。两者各有优势,选择应基于具体应用场景。

从XML到C:数据转换和操纵从XML到C:数据转换和操纵Apr 16, 2025 am 12:08 AM

从XML转换到C 并进行数据操作可以通过以下步骤实现:1)使用tinyxml2库解析XML文件,2)将数据映射到C 的数据结构中,3)使用C 标准库如std::vector进行数据操作。通过这些步骤,可以高效地处理和操作从XML转换过来的数据。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)