對 Intel Sandybridge 系列 CPU 中的管道進行去優化
目標: 透過利用以下知識來悲觀程式運行速度較慢英特爾 i7
問題:
作業提供了兩個選項:油石或蒙特卡羅程式。學生選擇了蒙地卡羅模擬程序,但他們的悲觀努力只增加了代碼運行時間一秒。
問題:
學生如何進一步悲觀化程式碼實現更有意義速度變慢?
答案:
一般策略:
- 引入不可預測的分支來增加誤預測懲罰。
- 延長循環攜帶的依賴鏈以減少指令等級並行性。
- 使用較慢的 FP 運算和 div,尤其是 exp 和 log 函數。
Uarch 特定想法:
具有內在函數():
- 使用movnti 從快取中逐出資料。
- 在 FP 數學運算之間使用整數洗牌以導致旁路延遲。
-
避免混合 SSE 和 AVX 指令而不使用vzeroupper。
使用(內聯)asm:
- 強制對齊問題以破壞 uop 快取。
- 使用self-修改程式碼觸發管道
導致快取未命中和記憶體減慢:
- 執行狹窄存儲導致儲存轉發停頓。
- 取代具有大結構成員的局部變數來控制記憶體佈局。
- 安排記憶體佈局以增加快取未命中和頁面拆分載入。
- 使用未對齊的變數來跨越快取行或頁面邊界。
- 以非循環方式循環數組-連續順序。
- 考慮使用鍊錶而不是
其他技術:
- 使用std::atomic;於較慢的原子操作。
- 使用 -m32 或 -march=i386 編譯以強制減慢程式碼產生速度。
- 強制使用較低精度的長雙精度計算以獲得額外的速度。
- 經常將CPU親和力設定為不同的CPU。
- 為上下文切換實現過多的系統呼叫
最後的註解:
- 雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>了代碼的速度,但它們的「惡魔般的無能」程度取決於給出的理由.
- 作業講師可能想讓學生了解管道危險和依賴性,而不僅僅是應用這些技術盲目地。
以上是如何進一步優化蒙特卡羅模擬以顯著減慢英特爾 Sandybridge 系列 CPU 的執行速度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!