首頁 >後端開發 >C++ >如何進一步優化蒙特卡羅模擬以顯著減慢英特爾 Sandybridge 系列 CPU 的執行速度?

如何進一步優化蒙特卡羅模擬以顯著減慢英特爾 Sandybridge 系列 CPU 的執行速度?

DDD
DDD原創
2024-11-29 00:57:101007瀏覽

How Can a Monte Carlo Simulation Be Further Deoptimized to Significantly Slow Down Execution on an Intel Sandybridge-Family CPU?

對 Intel Sandybridge 系列 CPU 中的管道進行去優化

目標: 透過利用以下知識來悲觀程式運行速度較慢英特爾 i7

問題:

作業提供了兩個選項:油石或蒙特卡羅程式。學生選擇了蒙地卡羅模擬程序,但他們的悲觀努力只增加了代碼運行時間一秒。

問題:

學生如何進一步悲觀化程式碼實現更有意義速度變慢?

答案:

一般策略:

  • 引入不可預測的分支來增加誤預測懲罰。
  • 延長循環攜帶的依賴鏈以減少指令等級並行性。
  • 使用較慢的 FP 運算和 div,尤其是 exp 和 log 函數。

Uarch 特定想法:

具有內在函數():

  • 使用movnti 從快取中逐出資料。
  • 在 FP 數學運算之間使用整數洗牌以導致旁路延遲。
  • 避免混合 SSE 和 AVX 指令而不使用vzeroupper。

使用(內聯)asm:

  • 強制對齊問題以破壞 uop 快取。
  • 使用self-修改程式碼觸發管道

導致快取未命中和記憶體減慢:

  • 執行狹窄存儲導致儲存轉發停頓。
  • 取代具有大結構成員的局部變數來控制記憶體佈局。
  • 安排記憶體佈局以增加快取未命中和頁面拆分載入。
  • 使用未對齊的變數來跨越快取行或頁面邊界。
  • 以非循環方式循環數組-連續順序。
  • 考慮使用鍊錶而不是

其他技術:

  • 使用std::atomic;於較慢的原子操作。
  • 使用 -m32 或 -march=i386 編譯以強制減慢程式碼產生速度。
  • 強制使用較低精度的長雙精度計算以獲得額外的速度。
  • 經常將CPU親和力設定為不同的CPU。
  • 為上下文切換實現過多的系統呼叫

最後的註解:

  • 雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>雖然這些技術有效地減慢>了代碼的速度,但它們的「惡魔般的無能」程度取決於給出的理由.
  • 作業講師可能想讓學生了解管道危險和依賴性,而不僅僅是應用這些技術盲目地。

以上是如何進一步優化蒙特卡羅模擬以顯著減慢英特爾 Sandybridge 系列 CPU 的執行速度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn