最近,我正在研究计算泊松分布(amath_pdist)的函数的多线程实现。目标是将工作负载分配到多个线程以提高性能,特别是对于大型阵列。然而,我注意到随着数组大小的增加,速度明显减慢,而不是达到预期的加速。
经过一番调查,我发现了罪魁祸首:虚假分享。在这篇文章中,我将解释什么是错误共享,展示导致问题的原始代码,并分享导致性能大幅提升的修复方法。
问题:多线程代码中的错误共享
错误共享当多个线程在共享数组的不同部分工作时发生,但它们的数据驻留在同一个缓存行中。高速缓存行是内存和 CPU 高速缓存之间传输的最小数据单元(通常为 64 字节)。如果一个线程写入缓存行的一部分,就会使其他线程的该行无效,即使它们正在处理逻辑上独立的数据。由于重复重新加载缓存行,这种不必要的失效会导致性能显着下降。
这是我的原始代码的简化版本:
void *calculate_pdist_segment(void *data) { struct pdist_segment *segment = (struct pdist_segment *)data; size_t interval_a = segment->interval_a, interval_b = segment->interval_b; double lambda = segment->lambda; int *d = segment->data; for (size_t i = interval_a; i pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1); } return NULL; } double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist = malloc(sizeof(double) * n_elements); pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 问题发生在哪里 </h3> <p>上面的代码中:</p>
- 数组 pdist 在所有线程之间共享。
- 每个线程写入特定范围的索引(interval_a 到interval_b)。
- 在段边界,相邻索引可能驻留在同一缓存行中。例如,如果 pdist[249999] 和 pdist[250000] 共享一个缓存行,则线程 1(处理 pdist[249999])和线程 2(处理 pdist[250000])会使彼此的缓存行无效。
这个问题对于较大的数组来说扩展性很差。虽然边界问题看起来很小,但迭代的绝对数量放大了缓存失效的成本,导致数秒的不必要的开销。
解决方案:将内存与缓存行边界对齐
为了解决该问题,我使用 posix_memalign 来确保 pdist 数组与 64 字节边界 对齐。这保证了线程在完全独立的缓存行上运行,消除了错误共享。
这是更新后的代码:
double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist; if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) { perror("Failed to allocate aligned memory"); return NULL; } pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 为什么这有效? </h3> <ol> <li> <p><strong>对齐内存</strong>:</p> <ul> <li>使用 posix_memalign,数组从缓存行边界开始。</li> <li>每个线程的分配范围与缓存行整齐对齐,防止重叠。</li> </ul> </li> <li> <p><strong>无缓存线共享</strong>:</p> <ul> <li>线程在不同的缓存行上运行,消除了错误共享导致的失效。</li> </ul> </li> <li> <p><strong>提高缓存效率</strong>:</p> <ul> <li>顺序内存访问模式与 CPU 预取器很好地配合,进一步提高性能。</li> </ul> </li> </ol> <hr> <h3> 结果和要点 </h3> <p>应用修复后,amath_pdist 函数的运行时间显着下降。对于我正在测试的数据集,挂钟时间从 <strong>10.92 秒下降到 0.06 秒</strong>。</p> <h4> 主要经验教训: </h4> <ol> <li> <strong>错误共享</strong>是多线程应用程序中一个微妙但关键的问题。即使段边界处的微小重叠也会降低性能。</li> <li> <strong>内存对齐</strong>使用posix_memalign是解决错误共享的简单有效的方法。将内存与缓存行边界对齐可确保线程独立运行。</li> <li>在处理大型数组或并行处理时,始终分析代码是否存在与缓存相关的问题。 perf 或 valgrind 等工具可以帮助查明瓶颈。</li> </ol> <p>感谢您的阅读!</p> <p>对于任何对代码感兴趣的人,您可以在这里找到它</p>
以上是了解并解决多线程应用程序中的错误共享以及我遇到的实际问题的详细内容。更多信息请关注PHP中文网其他相关文章!

C 和XML的未来发展趋势分别为:1)C 将通过C 20和C 23标准引入模块、概念和协程等新特性,提升编程效率和安全性;2)XML将继续在数据交换和配置文件中占据重要地位,但会面临JSON和YAML的挑战,并朝着更简洁和易解析的方向发展,如XMLSchema1.1和XPath3.1的改进。

现代C 设计模式利用C 11及以后的新特性实现,帮助构建更灵活、高效的软件。1)使用lambda表达式和std::function简化观察者模式。2)通过移动语义和完美转发优化性能。3)智能指针确保类型安全和资源管理。

C 多线程和并发编程的核心概念包括线程的创建与管理、同步与互斥、条件变量、线程池、异步编程、常见错误与调试技巧以及性能优化与最佳实践。1)创建线程使用std::thread类,示例展示了如何创建并等待线程完成。2)同步与互斥使用std::mutex和std::lock_guard保护共享资源,避免数据竞争。3)条件变量通过std::condition_variable实现线程间的通信和同步。4)线程池示例展示了如何使用ThreadPool类并行处理任务,提高效率。5)异步编程使用std::as

C 的内存管理、指针和模板是核心特性。1.内存管理通过new和delete手动分配和释放内存,需注意堆和栈的区别。2.指针允许直接操作内存地址,使用需谨慎,智能指针可简化管理。3.模板实现泛型编程,提高代码重用性和灵活性,需理解类型推导和特化。

C 适合系统编程和硬件交互,因为它提供了接近硬件的控制能力和面向对象编程的强大特性。1)C 通过指针、内存管理和位操作等低级特性,实现高效的系统级操作。2)硬件交互通过设备驱动程序实现,C 可以编写这些驱动程序,处理与硬件设备的通信。

C 适合构建高性能游戏和仿真系统,因为它提供接近硬件的控制和高效性能。1)内存管理:手动控制减少碎片,提高性能。2)编译时优化:内联函数和循环展开提升运行速度。3)低级操作:直接访问硬件,优化图形和物理计算。

文件操作难题的真相:文件打开失败:权限不足、路径错误、文件被占用。数据写入失败:缓冲区已满、文件不可写、磁盘空间不足。其他常见问题:文件遍历缓慢、文本文件编码不正确、二进制文件读取错误。

深入解析C语言文件操作难题前言文件操作是C语言编程中一项重要的功能。然而,它也可能是一个有挑战性的领域,尤其是在处理复杂文件结构时。本文将深入解析C语言文件操作的常见难题,并提供实战案例来阐明解决方法。打开和关闭文件打开文件时,有两种主要的模式:r(只读)和w(写只)。要打开文件,可以使用fopen()函数:FILE*fp=fopen("file.txt","r");打开文件后,必须在使用完后将其关闭,以释放资源:fclose(fp);读取和写入数据可以使


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

记事本++7.3.1
好用且免费的代码编辑器

Dreamweaver CS6
视觉化网页开发工具

Atom编辑器mac版下载
最流行的的开源编辑器

SublimeText3汉化版
中文版,非常好用