為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能,以及編譯器最佳化和變數宣告如何影響
探究u64 循環計數器與x86 CPUs 上的_mm_popcnt_u64 不同尋常的效能差異
簡介
我在尋找快速對大型資料數組進行popcount 的方法時,遇到了一個非常奇怪的現象:將循環變數從 unsigned 更改為 uint64_t 使我的 PC 上的效能下降了 50%。基準測試
#include <iostream> #include <chrono> #include <x86intrin.h> int main(int argc, char* argv[]) { using namespace std; if (argc != 2) { cerr (buffer); for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP; { startP = chrono::system_clock::now(); count = 0; for( unsigned k = 0; k (endP-startP).count(); cout (endP-startP).count(); cout 如您所見,我們建立了一個大小為 x MB 的隨機資料緩衝區,其中 x 從命令列讀取。然後,我們迭代緩衝區並使用 x86 popcount 內聯函數的一個展開版本執行 popcount。為了獲得更精確的結果,我們執行 10,000 次 popcount。我們測量 popcount 的時間。在第一種情況下,內部循環變數未簽名,在第二種情況下,內部循環變數為 uint64_t。我認為這不應該有任何區別,但事實並非如此。 <p></p> <p>(絕對瘋狂的)結果<strong></strong></p>我這樣編譯它(g 版本:Ubuntu 4.8.2-19ubuntu1):<p></p> <pre class="brush:php;toolbar:false">g++ -O3 -march=native -std=c++11 test.cpp -o test這是我在我的Haswell Core i7-4770K CPU @ 3.50GHz 上執行測試1(所以 1MB 隨機資料)的結果:
- unsigned 41959360000 0.401554 秒 26.113 GB/秒
- uint64_t 413 GB/秒
- uint64_t 415093830509385010938201093. GB/秒
clang++ -O3 -march=native -std=c++11 teest.cpp -o test測試結果1:
- unsigned 4195936008秒26.3267 GB/秒
- uint64_t 41959360000 0.680954 秒 15.3986 GB/秒
uint64_t size = atol(argv[1]) <p></p>改為:<pre class="brush:php;toolbar:false">uint64_t size = 1 <p></p>因此,編譯器現在知道編譯時的緩衝區大小。也許它可以添加一些優化!以下是 g 中的數字:
- unsigned 41959360000 0.509156 秒 20.5944 GB/秒
- uint64_t 4195936
uint64_t 4195936000863610086361000963610086320100863201008963150096320100863201008632010089631500963201008632010096315032 GB/秒
現在,兩個版本的速度都一樣快。然而,與 unsigned 相比, velocidade 甚至變得更慢了!它從 26 GB/秒下降到 20 GB/秒,因此用常數值取代一個非常規常數導致uint64_t size = atol(argv[1]) 去最佳化<p>。嚴重的是,我在這裡毫無頭緒!但現在用 clang 和新版本:</p><pre class="brush:php;toolbar:false">uint64_t size = 1 <p>改為:</p>結果:
- unsigned 41959360000 0.677009 sec 15.4884 GB/s
- uint64_t 41959360000 0.676909 sec061 GB/s
等等,發生了什麼事?現在,兩個版本都下降到了 15GB/s 的 低速度。因此,用一個常數值取代一個非常規常數值甚至導致了 兩 個版本的程式碼速度變慢對於 Clang!
我請一位使用 Ivy Bridge CPU 的同事編譯我的基準測試。他得到了類似的結果,所以這似乎不是 Haswell 獨有。由於有兩個編譯器在此處產生奇怪的結果,因此這似乎也不是編譯器錯誤。由於我們這裡沒有 AMD CPU,只能使用 Intel 來測試。
更多瘋狂,拜託!
使用第一個範例(帶有atol(argv[1]) 的範例),在變數前面放置一個static,即:
#include <iostream> #include <chrono> #include <x86intrin.h> int main(int argc, char* argv[]) { using namespace std; if (argc != 2) { cerr (buffer); for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP; { startP = chrono::system_clock::now(); count = 0; for( unsigned k = 0; k (endP-startP).count(); cout (endP-startP).count(); cout <p>以下是她在g 中的結果:</p> <ul> <li>unsigned 41959360000 0.396728 秒 26.4306 GB/秒</li> <li>uint64_t 41959360000 0.509484 秒 20.5811 GB/秒</li> </ul> <p>耶,還有另一個替代方案!我們仍然擁有 32GB/s 與 u3,但我們設法將 u64 至少從 13GB/s 版本提升到 20GB/s 版本!在我的同事的電腦上,u64 版本甚至比 u32 版本更快,獲得了最好的結果。遺憾的是,這只適用於 g ,clang 似乎不在乎 static。 </p> <p>**我的問題</p></size></x86intrin.h></chrono></iostream>
以上是為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能,以及編譯器最佳化和變數宣告如何影響的詳細內容。更多資訊請關注PHP中文網其他相關文章!

C#和C 的主要區別在於語法、內存管理和性能:1)C#語法現代,支持lambda和LINQ,C 保留C特性並支持模板。 2)C#自動內存管理,C 需要手動管理。 3)C 性能優於C#,但C#性能也在優化中。

在C 中處理XML數據可以使用TinyXML、Pugixml或libxml2庫。 1)解析XML文件:使用DOM或SAX方法,DOM適合小文件,SAX適合大文件。 2)生成XML文件:將數據結構轉換為XML格式並寫入文件。通過這些步驟,可以有效地管理和操作XML數據。

在C 中處理XML數據結構可以使用TinyXML或pugixml庫。 1)使用pugixml庫解析和生成XML文件。 2)處理複雜的嵌套XML元素,如書籍信息。 3)優化XML處理代碼,建議使用高效庫和流式解析。通過這些步驟,可以高效處理XML數據。

C 在性能優化方面仍然佔據主導地位,因為其低級內存管理和高效執行能力使其在遊戲開發、金融交易系統和嵌入式系統中不可或缺。具體表現為:1)在遊戲開發中,C 的低級內存管理和高效執行能力使得它成為遊戲引擎開發的首選語言;2)在金融交易系統中,C 的性能優勢確保了極低的延遲和高吞吐量;3)在嵌入式系統中,C 的低級內存管理和高效執行能力使得它在資源有限的環境中非常受歡迎。

C XML框架的選擇應基於項目需求。 1)TinyXML適合資源受限環境,2)pugixml適用於高性能需求,3)Xerces-C 支持複雜的XMLSchema驗證,選擇時需考慮性能、易用性和許可證。

C#适合需要开发效率和类型安全的项目,而C 适合需要高性能和硬件控制的项目。1)C#提供垃圾回收和LINQ,适用于企业应用和Windows开发。2)C 以高性能和底层控制著称,广泛用于游戏和系统编程。

C 代碼優化可以通過以下策略實現:1.手動管理內存以優化使用;2.編寫符合編譯器優化規則的代碼;3.選擇合適的算法和數據結構;4.使用內聯函數減少調用開銷;5.應用模板元編程在編譯時優化;6.避免不必要的拷貝,使用移動語義和引用參數;7.正確使用const幫助編譯器優化;8.選擇合適的數據結構,如std::vector。

C 中的volatile關鍵字用於告知編譯器變量值可能在代碼控制之外被改變,因此不能對其進行優化。 1)它常用於讀取可能被硬件或中斷服務程序修改的變量,如傳感器狀態。 2)volatile不能保證多線程安全,應使用互斥鎖或原子操作。 3)使用volatile可能導致性能slight下降,但確保程序正確性。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3漢化版
中文版,非常好用

Dreamweaver CS6
視覺化網頁開發工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。