用64 位替換32 位循環計數器會在Intel CPU 上使用_mm_popcnt_u64 引入瘋狂的性能偏差
問題摘要
當循環計數器出現時,popcount基準測試的效能會發生巨大變化變數從 32 位元無符號更改為 64 位元無符號,儘管更改似乎沒有影響循環的基本操作。
問題
- 為什麼使用 32 位元和 64 位元循環計數器會有這麼大的效能差異?
- 如何取代具有常數值的非恆定緩衝區大小會導致較慢程式碼?
- 將「static」關鍵字加入到緩衝區大小變數如何讓64位元循環更快?
回答
1。效能差異是由於 Intel CPU 上 popcnt 指令中的錯誤資料依賴性所造成的。
當循環計數器為 32 位元時,每個循環迭代中的 popcnt 指令是獨立執行的,從而允許並行執行。然而,當循環計數器為 64 位元時,popcnt 指令之間會引入錯誤的資料依賴關係,導致它們無法並行執行。這種依賴性是由於 popcnt 指令的目標暫存器在下一次迭代中被重複使用而引起的,從而創建了限制效能的人為依賴性。
2.用常數值取代非常量緩衝區大小會減慢程式碼速度,因為它會阻止編譯器執行某些最佳化。
使用常數緩衝區大小,編譯器知道緩衝區的確切大小在編譯時,這可以允許更有效的記憶體存取模式和指令調度。但是,如果緩衝區大小不固定,編譯器必須假設最壞的情況,這可能會導致程式碼最佳化程度較低。
3.將'static' 關鍵字加入到緩衝區大小變數可以使64 位元循環更快,因為它使緩衝區大小成為編譯時常數,從而允許編譯器執行額外的最佳化。
透過讓緩衝區大小是編譯時常數,編譯器可以更積極地最佳化記憶體存取模式和指令調度,產生更快的程式碼。
課程了解
即使循環中的微小變化也會因為意外的依賴項或編譯器最佳化而對效能產生重大影響。了解這些依賴關係以及它們如何影響效能以編寫高效的程式碼非常重要。
以上是為什麼將循環計數器從 32 位元更改為 64 位元會極大地影響 Intel CPU 上的 _mm_popcnt_u64 效能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文解釋了C標準模板庫(STL),重點關注其核心組件:容器,迭代器,算法和函子。 它詳細介紹了這些如何交互以啟用通用編程,提高代碼效率和可讀性t

本文詳細介紹了c中有效的STL算法用法。 它強調了數據結構選擇(向量與列表),算法複雜性分析(例如,std :: sort vs. std vs. std :: partial_sort),迭代器用法和並行執行。 常見的陷阱

本文詳細介紹了C中的有效異常處理,涵蓋了嘗試,捕捉和投擲機制。 它強調了諸如RAII之類的最佳實踐,避免了不必要的捕獲塊,並為強大的代碼登錄例外。 該文章還解決了Perf

本文討論了使用C中的移動語義來通過避免不必要的複制來提高性能。它涵蓋了使用std :: Move的實施移動構造函數和任務運算符,並確定了關鍵方案和陷阱以有效

C 20範圍通過表現力,合成性和效率增強數據操作。它們簡化了複雜的轉換並集成到現有代碼庫中,以提高性能和可維護性。

本文討論了C中的動態調度,其性能成本和優化策略。它突出了動態調度會影響性能並將其與靜態調度進行比較的場景,強調性能和之間的權衡

文章討論了在C中有效使用RVALUE參考,以進行移動語義,完美的轉發和資源管理,重點介紹最佳實踐和性能改進。(159個字符)


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

Dreamweaver Mac版
視覺化網頁開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。