搜尋
首頁後端開發C++為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能,以及編譯器最佳化和變數宣告如何影響

Why does changing a loop counter from `unsigned` to `uint64_t` significantly impact the performance of `_mm_popcnt_u64` on x86 CPUs, and how does compiler optimization and variable declaration affect this performance difference?

探究u64 循環計數器與x86 CPUs 上的_mm_popcnt_u64 不同尋常的效能差異

簡介

我在尋找快速對大型資料數組進行popcount 的方法時,遇到了一個非常奇怪的現象:將循環變數從 unsigned 更改為 uint64_t 使我的 PC 上的效能下降了 50%。

基準測試

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout 如您所見,我們建立了一個大小為 x MB 的隨機資料緩衝區,其中 x 從命令列讀取。然後,我們迭代緩衝區並使用 x86 popcount 內聯函數的一個展開版本執行 popcount。為了獲得更精確的結果,我們執行 10,000 次 popcount。我們測量 popcount 的時間。在第一種情況下,內部循環變數未簽名,在第二種情況下,內部循環變數為 uint64_t。我認為這不應該有任何區別,但事實並非如此。 <p></p>
<p>(絕對瘋狂的)結果<strong></strong></p>我這樣編譯它(g 版本:Ubuntu 4.8.2-19ubuntu1):<p></p>
<pre class="brush:php;toolbar:false">g++ -O3 -march=native -std=c++11 test.cpp -o test
這是我在我的Haswell Core i7-4770K CPU @ 3.50GHz 上執行測試1(所以 1MB 隨機資料)的結果:

    unsigned 41959360000 0.401554 秒 26.113 GB/秒
  • uint64_t 413 GB/秒
  • uint64_t 415093830509385010938201093. GB/秒

如您所見,uint64_t 版本的吞吐量只有 unsigned 版本的一半!該問題似乎是產生了不同的彙編,但原因是什麼?首先,我認為這是一個編譯器錯誤,所以我嘗試了clang (Ubuntu Clang 版本3.4-1ubuntu3):
clang++ -O3 -march=native -std=c++11 teest.cpp -o test

測試結果1:
  • unsigned 4195936008秒26.3267 GB/秒
  • uint64_t 41959360000 0.680954 秒 15.3986 GB/秒

因此,幾乎得到了相同的結果,仍然很奇怪。但現在變得非常奇怪。我將從輸入中讀取的緩衝區大小替換為常數1,所以我在:
uint64_t size = atol(argv[1]) <p></p>改為:<pre class="brush:php;toolbar:false">uint64_t size = 1 <p></p>因此,編譯器現在知道編譯時的緩衝區大小。也許它可以添加一些優化!以下是 g 中的數字:
  • unsigned 41959360000 0.509156 秒 20.5944 GB/秒
  • uint64_t 4195936

uint64_t 4195936000863610086361000963610086320100863201008963150096320100863201008632010089631500963201008632010096315032 GB/秒

現在,兩個版本的速度都一樣快。然而,與 unsigned 相比, velocidade 甚至變得更慢了!它從 26 GB/秒下降到 20 GB/秒,因此用常數值取代一個非常規常數導致
uint64_t size = atol(argv[1]) 去最佳化<p>。嚴重的是,我在這裡毫無頭緒!但現在用 clang 和新版本:</p><pre class="brush:php;toolbar:false">uint64_t size = 1 <p>改為:</p>結果:
  • unsigned 41959360000 0.677009 sec 15.4884 GB/s
  • uint64_t 41959360000 0.676909 sec061 GB/s

等等,發生了什麼事?現在,兩個版本都下降到了 15GB/s 的 速度。因此,用一個常數值取代一個非常規常數值甚至導致了 個版本的程式碼速度變慢對於 Clang!

我請一位使用 Ivy Bridge CPU 的同事編譯我的基準測試。他得到了類似的結果,所以這似乎不是 Haswell 獨有。由於有兩個編譯器在此處產生奇怪的結果,因此這似乎也不是編譯器錯誤。由於我們這裡沒有 AMD CPU,只能使用 Intel 來測試。

更多瘋狂,拜託!

使用第一個範例(帶有atol(argv[1]) 的範例),在變數前面放置一個static,即:

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout <p>以下是她在g 中的結果:</p>
<ul>
<li>unsigned 41959360000 0.396728 秒 26.4306 GB/秒</li>
<li>uint64_t 41959360000 0.509484 秒 20.5811 GB/秒</li>
</ul>
<p>耶,還有另一個替代方案!我們仍然擁有 32GB/s 與 u3,但我們設法將 u64 至少從 13GB/s 版本提升到 20GB/s 版本!在我的同事的電腦上,u64 版本甚至比 u32 版本更快,獲得了最好的結果。遺憾的是,這只適用於 g ,clang 似乎不在乎 static。 </p>
<p>**我的問題</p></size></x86intrin.h></chrono></iostream>

以上是為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能,以及編譯器最佳化和變數宣告如何影響的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
C標準模板庫(STL)如何工作?C標準模板庫(STL)如何工作?Mar 12, 2025 pm 04:50 PM

本文解釋了C標準模板庫(STL),重點關注其核心組件:容器,迭代器,算法和函子。 它詳細介紹了這些如何交互以啟用通用編程,提高代碼效率和可讀性t

如何有效地使用STL(排序,查找,轉換等)的算法?如何有效地使用STL(排序,查找,轉換等)的算法?Mar 12, 2025 pm 04:52 PM

本文詳細介紹了c中有效的STL算法用法。 它強調了數據結構選擇(向量與列表),算法複雜性分析(例如,std :: sort vs. std vs. std :: partial_sort),迭代器用法和並行執行。 常見的陷阱

C語言數據結構:樹和圖的數據表示與操作C語言數據結構:樹和圖的數據表示與操作Apr 04, 2025 am 11:18 AM

C語言數據結構:樹和圖的數據表示與操作樹是一個層次結構的數據結構由節點組成,每個節點包含一個數據元素和指向其子節點的指針二叉樹是一種特殊類型的樹,其中每個節點最多有兩個子節點數據表示structTreeNode{intdata;structTreeNode*left;structTreeNode*right;};操作創建樹遍歷樹(先序、中序、後序)搜索樹插入節點刪除節點圖是一個集合的數據結構,其中的元素是頂點,它們通過邊連接在一起邊可以是帶權或無權的數據表示鄰

在C中如何有效地使用RVALUE參考?在C中如何有效地使用RVALUE參考?Mar 18, 2025 pm 03:29 PM

文章討論了在C中有效使用RVALUE參考,以進行移動語義,完美的轉發和資源管理,重點介紹最佳實踐和性能改進。(159個字符)

我如何在C中有效處理異常?我如何在C中有效處理異常?Mar 12, 2025 pm 04:56 PM

本文詳細介紹了C中的有效異常處理,涵蓋了嘗試,捕捉和投擲機制。 它強調了諸如RAII之類的最佳實踐,避免了不必要的捕獲塊,並為強大的代碼登錄例外。 該文章還解決了Perf

如何在C 20中使用範圍進行更有表現的數據操縱?如何在C 20中使用範圍進行更有表現的數據操縱?Mar 17, 2025 pm 12:58 PM

C 20範圍通過表現力,合成性和效率增強數據操作。它們簡化了複雜的轉換並集成到現有代碼庫中,以提高性能和可維護性。

如何使用C中的移動語義來提高性能?如何使用C中的移動語義來提高性能?Mar 18, 2025 pm 03:27 PM

本文討論了使用C中的移動語義來通過避免不必要的複制來提高性能。它涵蓋了使用std :: Move的實施移動構造函數和任務運算符,並確定了關鍵方案和陷阱以有效

動態調度如何在C中起作用,如何影響性能?動態調度如何在C中起作用,如何影響性能?Mar 17, 2025 pm 01:08 PM

本文討論了C中的動態調度,其性能成本和優化策略。它突出了動態調度會影響性能並將其與靜態調度進行比較的場景,強調性能和之間的權衡

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。