為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能，以及編譯器最佳化和變數宣告如何影響-C++-PHP中文網

首頁

後端開發

C++

為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能，以及編譯器最佳化和變數宣告如何影響

Linda Hamilton

Dec 05, 2024 am 10:42 AM

Why does changing a loop counter from `unsigned` to `uint64_t` significantly impact the performance of `_mm_popcnt_u64` on x86 CPUs, and how does compiler optimization and variable declaration affect this performance difference?

探究u64 循環計數器與x86 CPUs 上的_mm_popcnt_u64 不同尋常的效能差異

簡介

我在尋找快速對大型資料數組進行popcount 的方法時，遇到了一個非常奇怪的現象：將循環變數從 unsigned 更改為 uint64_t 使我的 PC 上的效能下降了 50%。

基準測試

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout 如您所見，我們建立了一個大小為 x MB 的隨機資料緩衝區，其中 x 從命令列讀取。然後，我們迭代緩衝區並使用 x86 popcount 內聯函數的一個展開版本執行 popcount。為了獲得更精確的結果，我們執行 10,000 次 popcount。我們測量 popcount 的時間。在第一種情況下，內部循環變數未簽名，在第二種情況下，內部循環變數為 uint64_t。我認為這不應該有任何區別，但事實並非如此。 <p></p>
<p>（絕對瘋狂的）結果<strong></strong></p>我這樣編譯它（g 版本：Ubuntu 4.8.2-19ubuntu1）：<p></p>
<pre class="brush:php;toolbar:false">g++ -O3 -march=native -std=c++11 test.cpp -o test

這是我在我的Haswell Core i7-4770K CPU @ 3.50GHz 上執行測試1（所以 1MB 隨機資料）的結果：

uint64_t 413 GB/秒
uint64_t 415093830509385010938201093. GB/秒

如您所見，uint64_t 版本的吞吐量只有 unsigned 版本的一半！該問題似乎是產生了不同的彙編，但原因是什麼？首先，我認為這是一個編譯器錯誤，所以我嘗試了clang （Ubuntu Clang 版本3.4-1ubuntu3）：

clang++ -O3 -march=native -std=c++11 teest.cpp -o test

測試結果1：

unsigned 4195936008秒26.3267 GB/秒
uint64_t 41959360000 0.680954 秒 15.3986 GB/秒

因此，幾乎得到了相同的結果，仍然很奇怪。但現在變得非常奇怪。我將從輸入中讀取的緩衝區大小替換為常數1，所以我在：

uint64_t size = atol(argv[1]) <p></p>改為：<pre class="brush:php;toolbar:false">uint64_t size = 1 <p></p>因此，編譯器現在知道編譯時的緩衝區大小。也許它可以添加一些優化！以下是 g 中的數字：

unsigned 41959360000 0.509156 秒 20.5944 GB/秒
uint64_t 4195936

uint64_t 4195936000863610086361000963610086320100863201008963150096320100863201008632010089631500963201008632010096315032 GB/秒

現在，兩個版本的速度都一樣快。然而，與 unsigned 相比， velocidade 甚至變得更慢了！它從 26 GB/秒下降到 20 GB/秒，因此用常數值取代一個非常規常數導致

uint64_t size = atol(argv[1]) 去最佳化<p>。嚴重的是，我在這裡毫無頭緒！但現在用 clang 和新版本：</p><pre class="brush:php;toolbar:false">uint64_t size = 1 <p>改為：</p>結果：

unsigned 41959360000 0.677009 sec 15.4884 GB/s
uint64_t 41959360000 0.676909 sec061 GB/s

等等，發生了什麼事？現在，兩個版本都下降到了 15GB/s 的低速度。因此，用一個常數值取代一個非常規常數值甚至導致了兩個版本的程式碼速度變慢對於 Clang！

我請一位使用 Ivy Bridge CPU 的同事編譯我的基準測試。他得到了類似的結果，所以這似乎不是 Haswell 獨有。由於有兩個編譯器在此處產生奇怪的結果，因此這似乎也不是編譯器錯誤。由於我們這裡沒有 AMD CPU，只能使用 Intel 來測試。

更多瘋狂，拜託！

使用第一個範例（帶有atol(argv[1]) 的範例），在變數前面放置一個static，即：

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout <p>以下是她在g 中的結果：</p>
<ul>
<li>unsigned 41959360000 0.396728 秒 26.4306 GB/秒</li>
<li>uint64_t 41959360000 0.509484 秒 20.5811 GB/秒</li>
</ul>
<p>耶，還有另一個替代方案！我們仍然擁有 32GB/s 與 u3，但我們設法將 u64 至少從 13GB/s 版本提升到 20GB/s 版本！在我的同事的電腦上，u64 版本甚至比 u32 版本更快，獲得了最好的結果。遺憾的是，這只適用於 g ，clang 似乎不在乎 static。 </p>
<p>**我的問題</p></size></x86intrin.h></chrono></iostream>

以上是為什麼將循環計數器從「unsigned」更改為「uint64_t」會顯著影響 x86 CPU 上「_mm_popcnt_u64」的效能，以及編譯器最佳化和變數宣告如何影響的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

C＃vs. C：編程語言的比較分析May 04, 2025 am 12:03 AM

C#和C 的主要區別在於語法、內存管理和性能：1)C#語法現代，支持lambda和LINQ，C 保留C特性並支持模板。 2)C#自動內存管理，C 需要手動管理。 3)C 性能優於C#，但C#性能也在優化中。

用C構建XML應用程序：實例May 03, 2025 am 12:16 AM

在C 中處理XML數據可以使用TinyXML、Pugixml或libxml2庫。 1）解析XML文件：使用DOM或SAX方法，DOM適合小文件，SAX適合大文件。 2）生成XML文件：將數據結構轉換為XML格式並寫入文件。通過這些步驟，可以有效地管理和操作XML數據。

C中的XML：處理複雜的數據結構May 02, 2025 am 12:04 AM

在C 中處理XML數據結構可以使用TinyXML或pugixml庫。 1)使用pugixml庫解析和生成XML文件。 2)處理複雜的嵌套XML元素，如書籍信息。 3)優化XML處理代碼，建議使用高效庫和流式解析。通過這些步驟，可以高效處理XML數據。

C和性能：它仍然主導May 01, 2025 am 12:14 AM

C 在性能優化方面仍然佔據主導地位，因為其低級內存管理和高效執行能力使其在遊戲開發、金融交易系統和嵌入式系統中不可或缺。具體表現為：1）在遊戲開發中，C 的低級內存管理和高效執行能力使得它成為遊戲引擎開發的首選語言；2）在金融交易系統中，C 的性能優勢確保了極低的延遲和高吞吐量；3）在嵌入式系統中，C 的低級內存管理和高效執行能力使得它在資源有限的環境中非常受歡迎。

C XML框架：為您選擇合適的一個Apr 30, 2025 am 12:01 AM

C XML框架的選擇應基於項目需求。 1)TinyXML適合資源受限環境，2)pugixml適用於高性能需求，3)Xerces-C 支持複雜的XMLSchema驗證，選擇時需考慮性能、易用性和許可證。

C＃vs. C：為您的項目選擇正確的語言Apr 29, 2025 am 12:51 AM

C#适合需要开发效率和类型安全的项目，而C 适合需要高性能和硬件控制的项目。1)C#提供垃圾回收和LINQ，适用于企业应用和Windows开发。2)C 以高性能和底层控制著称，广泛用于游戏和系统编程。

c 怎麼進行代碼優化Apr 28, 2025 pm 10:27 PM

C 代碼優化可以通過以下策略實現：1.手動管理內存以優化使用；2.編寫符合編譯器優化規則的代碼；3.選擇合適的算法和數據結構；4.使用內聯函數減少調用開銷；5.應用模板元編程在編譯時優化；6.避免不必要的拷貝，使用移動語義和引用參數；7.正確使用const幫助編譯器優化；8.選擇合適的數據結構，如std::vector。

如何理解C 中的volatile關鍵字？Apr 28, 2025 pm 10:24 PM

C 中的volatile關鍵字用於告知編譯器變量值可能在代碼控制之外被改變，因此不能對其進行優化。 1）它常用於讀取可能被硬件或中斷服務程序修改的變量，如傳感器狀態。 2）volatile不能保證多線程安全，應使用互斥鎖或原子操作。 3）使用volatile可能導致性能slight下降，但確保程序正確性。

See all articles