最近,我正在研究计算泊松分布(amath_pdist)的函数的多线程实现。目标是将工作负载分配到多个线程以提高性能,特别是对于大型阵列。然而,我注意到随着数组大小的增加,速度明显减慢,而不是达到预期的加速。
经过一番调查,我发现了罪魁祸首:虚假分享。在这篇文章中,我将解释什么是错误共享,展示导致问题的原始代码,并分享导致性能大幅提升的修复方法。
问题:多线程代码中的错误共享
错误共享当多个线程在共享数组的不同部分工作时发生,但它们的数据驻留在同一个缓存行中。高速缓存行是内存和 CPU 高速缓存之间传输的最小数据单元(通常为 64 字节)。如果一个线程写入缓存行的一部分,就会使其他线程的该行无效,即使它们正在处理逻辑上独立的数据。由于重复重新加载缓存行,这种不必要的失效会导致性能显着下降。
这是我的原始代码的简化版本:
void *calculate_pdist_segment(void *data) { struct pdist_segment *segment = (struct pdist_segment *)data; size_t interval_a = segment->interval_a, interval_b = segment->interval_b; double lambda = segment->lambda; int *d = segment->data; for (size_t i = interval_a; i pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1); } return NULL; } double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist = malloc(sizeof(double) * n_elements); pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 问题发生在哪里 </h3> <p>上面的代码中:</p>
- 数组 pdist 在所有线程之间共享。
- 每个线程写入特定范围的索引(interval_a 到interval_b)。
- 在段边界,相邻索引可能驻留在同一缓存行中。例如,如果 pdist[249999] 和 pdist[250000] 共享一个缓存行,则线程 1(处理 pdist[249999])和线程 2(处理 pdist[250000])会使彼此的缓存行无效。
这个问题对于较大的数组来说扩展性很差。虽然边界问题看起来很小,但迭代的绝对数量放大了缓存失效的成本,导致数秒的不必要的开销。
解决方案:将内存与缓存行边界对齐
为了解决该问题,我使用 posix_memalign 来确保 pdist 数组与 64 字节边界 对齐。这保证了线程在完全独立的缓存行上运行,消除了错误共享。
这是更新后的代码:
double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist; if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) { perror("Failed to allocate aligned memory"); return NULL; } pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 为什么这有效? </h3> <ol> <li> <p><strong>对齐内存</strong>:</p> <ul> <li>使用 posix_memalign,数组从缓存行边界开始。</li> <li>每个线程的分配范围与缓存行整齐对齐,防止重叠。</li> </ul> </li> <li> <p><strong>无缓存线共享</strong>:</p> <ul> <li>线程在不同的缓存行上运行,消除了错误共享导致的失效。</li> </ul> </li> <li> <p><strong>提高缓存效率</strong>:</p> <ul> <li>顺序内存访问模式与 CPU 预取器很好地配合,进一步提高性能。</li> </ul> </li> </ol> <hr> <h3> 结果和要点 </h3> <p>应用修复后,amath_pdist 函数的运行时间显着下降。对于我正在测试的数据集,挂钟时间从 <strong>10.92 秒下降到 0.06 秒</strong>。</p> <h4> 主要经验教训: </h4> <ol> <li> <strong>错误共享</strong>是多线程应用程序中一个微妙但关键的问题。即使段边界处的微小重叠也会降低性能。</li> <li> <strong>内存对齐</strong>使用posix_memalign是解决错误共享的简单有效的方法。将内存与缓存行边界对齐可确保线程独立运行。</li> <li>在处理大型数组或并行处理时,始终分析代码是否存在与缓存相关的问题。 perf 或 valgrind 等工具可以帮助查明瓶颈。</li> </ol> <p>感谢您的阅读!</p> <p>对于任何对代码感兴趣的人,您可以在这里找到它</p>
以上是了解并解决多线程应用程序中的错误共享以及我遇到的实际问题的详细内容。更多信息请关注PHP中文网其他相关文章!

C#和C 的主要区别在于语法、内存管理和性能:1)C#语法现代,支持lambda和LINQ,C 保留C特性并支持模板。2)C#自动内存管理,C 需要手动管理。3)C 性能优于C#,但C#性能也在优化中。

在C 中处理XML数据可以使用TinyXML、Pugixml或libxml2库。1)解析XML文件:使用DOM或SAX方法,DOM适合小文件,SAX适合大文件。2)生成XML文件:将数据结构转换为XML格式并写入文件。通过这些步骤,可以有效地管理和操作XML数据。

在C 中处理XML数据结构可以使用TinyXML或pugixml库。1)使用pugixml库解析和生成XML文件。2)处理复杂的嵌套XML元素,如书籍信息。3)优化XML处理代码,建议使用高效库和流式解析。通过这些步骤,可以高效处理XML数据。

C 在性能优化方面仍然占据主导地位,因为其低级内存管理和高效执行能力使其在游戏开发、金融交易系统和嵌入式系统中不可或缺。具体表现为:1)在游戏开发中,C 的低级内存管理和高效执行能力使得它成为游戏引擎开发的首选语言;2)在金融交易系统中,C 的性能优势确保了极低的延迟和高吞吐量;3)在嵌入式系统中,C 的低级内存管理和高效执行能力使得它在资源有限的环境中非常受欢迎。

C XML框架的选择应基于项目需求。1)TinyXML适合资源受限环境,2)pugixml适用于高性能需求,3)Xerces-C 支持复杂的XMLSchema验证,选择时需考虑性能、易用性和许可证。

C#适合需要开发效率和类型安全的项目,而C 适合需要高性能和硬件控制的项目。 1)C#提供垃圾回收和LINQ,适用于企业应用和Windows开发。 2)C 以高性能和底层控制着称,广泛用于游戏和系统编程。

C 代码优化可以通过以下策略实现:1.手动管理内存以优化使用;2.编写符合编译器优化规则的代码;3.选择合适的算法和数据结构;4.使用内联函数减少调用开销;5.应用模板元编程在编译时优化;6.避免不必要的拷贝,使用移动语义和引用参数;7.正确使用const帮助编译器优化;8.选择合适的数据结构,如std::vector。

C 中的volatile关键字用于告知编译器变量值可能在代码控制之外被改变,因此不能对其进行优化。1)它常用于读取可能被硬件或中断服务程序修改的变量,如传感器状态。2)volatile不能保证多线程安全,应使用互斥锁或原子操作。3)使用volatile可能导致性能slight下降,但确保程序正确性。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

WebStorm Mac版
好用的JavaScript开发工具

SublimeText3汉化版
中文版,非常好用

Dreamweaver CS6
视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。