首頁 >後端開發 >C++ >英特爾架構程式碼分析器 (IACA) 如何協助分析和最佳化英特爾 CPU 的程式碼效能?

英特爾架構程式碼分析器 (IACA) 如何協助分析和最佳化英特爾 CPU 的程式碼效能?

Mary-Kate Olsen
Mary-Kate Olsen原創
2024-12-13 15:17:14444瀏覽

How Does Intel Architecture Code Analyzer (IACA) Help Analyze and Optimize Code Performance for Intel CPUs?

IACA 稱為英特爾架構程式碼分析器,是一種針對英特爾 CPU 評估程式碼排程的進階工具。它以三種模式運行:

  • 吞吐量模式: IACA 測量最大吞吐量,假設它是嵌套循環的主體。
  • 延遲模式: IACA 確定了從初始到最終的最小延遲指令。
  • 追蹤模式: IACA 追蹤指令通過管道的順序。

功能與應用:

  • 現代 Intel CPU 的估計調度(範圍從 Nehalem 到Broadwell,取決於版本)。
  • 以詳細的 ASCII 或互動式 Graphviz 圖表形式報告。
  • 支援 C、C 和 x86 彙編分析。

使用方法:

IACA 使用說明取決於您的程式語言。

C/C :

包含必要的 IACA 標頭 (iacaMarks.h) 並在目標循環周圍放置開始和結束標記:

/* C or C++ Usage */

while(cond){
    IACA_START
    /* Innermost Loop Body */
    /* ... */
}
IACA_END

組裝(x86):

插入指定的魔術位元組模式以手動指定標記:

/* NASM Usage */

mov ebx, 111          ; Start marker bytes
db 0x64, 0x67, 0x90   ; Start marker bytes

.innermostlooplabel:
    ; Loop body
    ; ...
    jne .innermostlooplabel ; Conditional Branch Backwards to Top of Loop

mov ebx, 222          ; End marker bytes
db 0x64, 0x67, 0x90   ; End marker bytes

命令列呼叫:

使用適當的參數從命令列調用IACA,例如as:

iaca.sh -64 -arch HSW -graph insndeps.dot foo

這將分析 Haswell CPU 上的 64 位元二進位 foo,產生分析報告和 Graphviz 視覺化。

輸出解釋:

輸出報告提供了有關目標代碼的調度和瓶頸的詳細資訊。例如,考慮以下彙編程式碼片段:

.L2:
    vmovaps         ymm1, [rdi+rax] ;L2
    vfmadd231ps     ymm1, ymm2, [rsi+rax] ;L2
    vmovaps         [rdx+rax], ymm1 ; S1
    add             rax, 32         ; ADD
    jne             .L2             ; JMP

透過在此程式碼周圍插入標記並對其進行分析,IACA 可能會報告(刪節):

Throughput Analysis Report
--------------------------
Block Throughput: 1.55 Cycles       Throughput Bottleneck: FrontEnd, PORT2_AGU, PORT3_AGU

[Port Pressure Breakdown] |  Instruction
--------------------------|-----------------
|           |   vmovaps ymm1, ymmword ptr [rdi+rax*1]
| 0.5 CP  |
| 1.5 CP  |   vfmadd231ps ymm1, ymm2, ymmword ptr [rsi+rax*1]
| 1.5 CP  |   vmovaps ymmword ptr [rdx+rax*1], ymm1
|   1 CP  |   add rax, 0x20
|   0 CP  |   jnz 0xffffffffffffffec

從此輸出中,IACA 識別出Haswell 前端以及連接埠2 和連接埠3 的AGU 是瓶頸。這表明優化連接埠 7 處理的儲存指令可以提高效能。

限制:

IACA 有一些限制:

  • 它不支援某些指令,這些指令在分析中會被忽略。
  • 它與 Nehalem 的 CPU 相容向前,不包括舊模型。
  • 吞吐量模式僅限於最內層循環,因為它無法推斷其他循環的分支模式。

以上是英特爾架構程式碼分析器 (IACA) 如何協助分析和最佳化英特爾 CPU 的程式碼效能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn