搜尋
首頁後端開發C++了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題

Understanding and Solving False Sharing in Multi-threaded Applications with an actual issue I had

最近,我正在研究計算泊松分佈(amath_pdist)的函數的多執行緒實作。目標是將工作負載分配到多個執行緒以提高效能,特別是對於大型陣列。然而,我注意到隨著數組大小的增加,速度明顯減慢,而不是達到預期的加速。

經過一番調查,我發現了罪魁禍首:虛假分享。在這篇文章中,我將解釋什麼是錯誤共享,展示導致問題的原始程式碼,並分享導致效能大幅提升的修復方法。


問題:多執行緒程式碼中的錯誤共享

錯誤共享當多個執行緒在共享陣列的不同部分工作時發生,但它們的資料駐留在同一個快取行中。高速緩存行是記憶體和 CPU 快取之間傳輸的最小資料單元(通常為 64 位元組)。如果一個執行緒寫入快取行的一部分,就會使其他執行緒的該行無效,即使它們正在處理邏輯上獨立的資料。由於重複重新載入快取行,這種不必要的失效會導致效能顯著下降。

這是我的原始程式碼的簡化版本:

void *calculate_pdist_segment(void *data) {
    struct pdist_segment *segment = (struct pdist_segment *)data;
    size_t interval_a = segment->interval_a, interval_b = segment->interval_b;
    double lambda = segment->lambda;
    int *d = segment->data;

    for (size_t i = interval_a; i pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1);
    }
    return NULL;
}

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist = malloc(sizeof(double) * n_elements);
    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i 




<hr>

<h3>
  
  
  問題發生在哪裡
</h3>

<p>上面的程式碼中:</p>

  • 陣列 pdist 在所有執行緒之間共用。
  • 每個執行緒寫入特定範圍的索引(interval_a 到interval_b)。
  • 在段邊界,相鄰索引可能駐留在同一快取行中。例如,如果 pdist[249999] 和 pdist[250000] 共用一個快取行,則執行緒 1(處理 pdist[249999])和執行緒 2(處理 pdist[250000])會使彼此的快取行無效。

這個問題對於較大的陣列來說擴充性很差。雖然邊界問題看起來很小,但迭代的絕對數量放大了快取失效的成本,導致數秒鐘的不必要的開銷。


解決方案:將記憶體與快取行邊界對齊

為了解決這個問題,我使用 posix_memalign 來確保 pdist 陣列與 64 位元組邊界 對齊。這保證了執行緒在完全獨立的快取行上運行,消除了錯誤共享。

這是更新後的程式碼:

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist;
    if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) {
        perror("Failed to allocate aligned memory");
        return NULL;
    }

    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i 




<hr>

<h3>
  
  
  為什麼這有效?
</h3>

<ol>
<li>
<p><strong>對齊記憶體</strong>:</p>

<ul>
<li>使用 posix_memalign,陣列從快取行邊界開始。 </li>
<li>每個執行緒的分配範圍與快取行整齊對齊,防止重疊。 </li>
</ul>
</li>
<li>
<p><strong>無快取線共享</strong>:</p>
<ul>
<li>執行緒在不同的快取行上運行,消除了錯誤共享導致的失效。 </li>
</ul>
</li>
<li>
<p><strong>提高快取效率</strong>:</p>

<ul>
<li>順序記憶體存取模式與 CPU 預取器很好地配合,進一步提高效能。 </li>
</ul>
</li>
</ol>


<hr>

<h3>
  
  
  結果和要點
</h3>

<p>應用修復後,amath_pdist 函數的運行時間顯著下降。對於我正在測試的資料集,掛鐘時間從 <strong>10.92 秒下降到 0.06 秒</strong>。 </p>

<h4>
  
  
  主要經驗教訓:
</h4>

<ol>
<li>
<strong>錯誤共享</strong>是多執行緒應用程式中一個微妙但關鍵的問題。即使段邊界處的微小重疊也會降低性能。 </li>
<li>
<strong>記憶體對齊</strong>使用posix_memalign是解決錯誤共享的簡單有效的方法。將記憶體與快取行邊界對齊可確保執行緒獨立運行。 </li>
<li>在處理大型陣列或平行處理時,始終分析程式碼是否有與快取相關的問題。 perf 或 valgrind 等工具可以幫助找出瓶頸。 </li>
</ol>

<p>感謝您的閱讀! </p>

<p>對於任何對程式碼感興趣的人,您可以在這裡找到它</p>


          

            
        

以上是了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
C標準模板庫(STL)如何工作?C標準模板庫(STL)如何工作?Mar 12, 2025 pm 04:50 PM

本文解釋了C標準模板庫(STL),重點關注其核心組件:容器,迭代器,算法和函子。 它詳細介紹了這些如何交互以啟用通用編程,提高代碼效率和可讀性t

如何有效地使用STL(排序,查找,轉換等)的算法?如何有效地使用STL(排序,查找,轉換等)的算法?Mar 12, 2025 pm 04:52 PM

本文詳細介紹了c中有效的STL算法用法。 它強調了數據結構選擇(向量與列表),算法複雜性分析(例如,std :: sort vs. std vs. std :: partial_sort),迭代器用法和並行執行。 常見的陷阱

C語言數據結構:樹和圖的數據表示與操作C語言數據結構:樹和圖的數據表示與操作Apr 04, 2025 am 11:18 AM

C語言數據結構:樹和圖的數據表示與操作樹是一個層次結構的數據結構由節點組成,每個節點包含一個數據元素和指向其子節點的指針二叉樹是一種特殊類型的樹,其中每個節點最多有兩個子節點數據表示structTreeNode{intdata;structTreeNode*left;structTreeNode*right;};操作創建樹遍歷樹(先序、中序、後序)搜索樹插入節點刪除節點圖是一個集合的數據結構,其中的元素是頂點,它們通過邊連接在一起邊可以是帶權或無權的數據表示鄰

在C中如何有效地使用RVALUE參考?在C中如何有效地使用RVALUE參考?Mar 18, 2025 pm 03:29 PM

文章討論了在C中有效使用RVALUE參考,以進行移動語義,完美的轉發和資源管理,重點介紹最佳實踐和性能改進。(159個字符)

我如何在C中有效處理異常?我如何在C中有效處理異常?Mar 12, 2025 pm 04:56 PM

本文詳細介紹了C中的有效異常處理,涵蓋了嘗試,捕捉和投擲機制。 它強調了諸如RAII之類的最佳實踐,避免了不必要的捕獲塊,並為強大的代碼登錄例外。 該文章還解決了Perf

如何在C 20中使用範圍進行更有表現的數據操縱?如何在C 20中使用範圍進行更有表現的數據操縱?Mar 17, 2025 pm 12:58 PM

C 20範圍通過表現力,合成性和效率增強數據操作。它們簡化了複雜的轉換並集成到現有代碼庫中,以提高性能和可維護性。

如何使用C中的移動語義來提高性能?如何使用C中的移動語義來提高性能?Mar 18, 2025 pm 03:27 PM

本文討論了使用C中的移動語義來通過避免不必要的複制來提高性能。它涵蓋了使用std :: Move的實施移動構造函數和任務運算符,並確定了關鍵方案和陷阱以有效

動態調度如何在C中起作用,如何影響性能?動態調度如何在C中起作用,如何影響性能?Mar 17, 2025 pm 01:08 PM

本文討論了C中的動態調度,其性能成本和優化策略。它突出了動態調度會影響性能並將其與靜態調度進行比較的場景,強調性能和之間的權衡

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。