搜尋
首頁後端開發C++為什麼在 Intel CPU 上用 64 位元替換 32 位元循環計數器會導致「_mm_popcnt_u64」效能下降?

Why Does Replacing a 32-bit Loop Counter with 64-bit Cause Performance Degradation with `_mm_popcnt_u64` on Intel CPUs?

用64 位替換32 位循環計數器會在Intel CPU 上使用mm_popcnt_u64 引入瘋狂的性能偏差

摘要

文章調查了更換32 位元循環計數器時遇到的性能偏差使用_mm_popcnt_u64 內在函數在效能關鍵循環中使用 64 位元計數器。此問題導致 Intel CPU 的效能顯著下降,從而導致執行速度不同。作者探討了這種行為背後的原因並提供了潛在的解決方案。

詳細資訊

相關程式碼涉及一個迭代資料數組並執行 popcount 的循環使用 x86 內部指令進行操作。循環計數器變數最初是無符號整數,但將其替換為 64 位元無符號整數(uint64_t)導致效能下降約 50%。

為了調查原因,作者編譯了程式碼:各種最佳化標誌並分析了產生的彙編程式碼。他們觀察到32位元和64位元版本產生了不同的程序集,導致他們懷疑編譯器有錯誤。

但是,在使用不同的編譯器測試程式碼後,作者的結論是問題不在於由編譯器錯誤引起,而不是由硬體中的錯誤資料依賴性引起。 _mm_popcnt_u64 指令在 Intel Sandy/Ivy Bridge 和 Haswell 處理器上使用時,會表現出對目標暫存器的錯誤依賴性,其中指令會等到目標準備好後再執行。這種錯誤的依賴關係可能會跨循環迭代,從而阻止處理器並行化不同的迭代並導致效能損失。

作者提出了內聯彙編測試,透過隔離 popcount 操作並打破錯誤依賴關係來演示效能差異鏈。這些測試表明,錯誤的依賴關係對效能有顯著影響,導致速度從 18.6195 GB/s 降低至 8.49272 GB/s。

文章也強調該問題影響Intel CPU,而AMD 處理器似乎沒有這個假

解決方案

為了緩解此性能問題,作者建議了幾種解決方案:

  • 改用32 位元循環計數器用於此特定循環的64位計數器。
  • 如果使用 64 位元循環計數器必要時,在 popcount 操作中使用目標暫存器之前,透過明確清零目標暫存器來打破錯誤依賴鏈。
  • 使用能夠識別此錯誤依賴關係並產生程式碼來補償它的編譯器。

以上是為什麼在 Intel CPU 上用 64 位元替換 32 位元循環計數器會導致「_mm_popcnt_u64」效能下降?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
C:死亡還是簡單地發展?C:死亡還是簡單地發展?Apr 24, 2025 am 12:13 AM

1)c relevantduetoItsAverity and效率和效果臨界。 2)theLanguageIsconTinuellyUped,withc 20introducingFeaturesFeaturesLikeTuresLikeSlikeModeLeslikeMeSandIntIneStoImproutiMimproutimprouteverusabilityandperformance.3)

C在現代世界中:應用和行業C在現代世界中:應用和行業Apr 23, 2025 am 12:10 AM

C 在現代世界中的應用廣泛且重要。 1)在遊戲開發中,C 因其高性能和多態性被廣泛使用,如UnrealEngine和Unity。 2)在金融交易系統中,C 的低延遲和高吞吐量使其成為首選,適用於高頻交易和實時數據分析。

C XML庫:比較和對比選項C XML庫:比較和對比選項Apr 22, 2025 am 12:05 AM

C 中有四種常用的XML庫:TinyXML-2、PugiXML、Xerces-C 和RapidXML。 1.TinyXML-2適合資源有限的環境,輕量但功能有限。 2.PugiXML快速且支持XPath查詢,適用於復雜XML結構。 3.Xerces-C 功能強大,支持DOM和SAX解析,適用於復雜處理。 4.RapidXML專注於性能,解析速度極快,但不支持XPath查詢。

C和XML:探索關係和支持C和XML:探索關係和支持Apr 21, 2025 am 12:02 AM

C 通過第三方庫(如TinyXML、Pugixml、Xerces-C )與XML交互。 1)使用庫解析XML文件,將其轉換為C 可處理的數據結構。 2)生成XML時,將C 數據結構轉換為XML格式。 3)在實際應用中,XML常用於配置文件和數據交換,提升開發效率。

C#vs. C:了解關鍵差異和相似之處C#vs. C:了解關鍵差異和相似之處Apr 20, 2025 am 12:03 AM

C#和C 的主要區別在於語法、性能和應用場景。 1)C#語法更簡潔,支持垃圾回收,適用於.NET框架開發。 2)C 性能更高,需手動管理內存,常用於系統編程和遊戲開發。

C#與C:歷史,進化和未來前景C#與C:歷史,進化和未來前景Apr 19, 2025 am 12:07 AM

C#和C 的歷史與演變各有特色,未來前景也不同。 1.C 由BjarneStroustrup在1983年發明,旨在將面向對象編程引入C語言,其演變歷程包括多次標準化,如C 11引入auto關鍵字和lambda表達式,C 20引入概念和協程,未來將專注於性能和系統級編程。 2.C#由微軟在2000年發布,結合C 和Java的優點,其演變注重簡潔性和生產力,如C#2.0引入泛型,C#5.0引入異步編程,未來將專注於開發者的生產力和雲計算。

C#vs. C:學習曲線和開發人員的經驗C#vs. C:學習曲線和開發人員的經驗Apr 18, 2025 am 12:13 AM

C#和C 的学习曲线和开发者体验有显著差异。1)C#的学习曲线较平缓,适合快速开发和企业级应用。2)C 的学习曲线较陡峭,适用于高性能和低级控制的场景。

C#vs. C:面向對象的編程和功能C#vs. C:面向對象的編程和功能Apr 17, 2025 am 12:02 AM

C#和C 在面向对象编程(OOP)中的实现方式和特性上有显著差异。1)C#的类定义和语法更为简洁,支持如LINQ等高级特性。2)C 提供更细粒度的控制,适用于系统编程和高性能需求。两者各有优势,选择应基于具体应用场景。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),