IACA 稱為英特爾架構程式碼分析器,是一種針對英特爾 CPU 評估程式碼排程的進階工具。它以三種模式運行:
功能與應用:
使用方法:
IACA 使用說明取決於您的程式語言。
C/C :
包含必要的 IACA 標頭 (iacaMarks.h) 並在目標循環周圍放置開始和結束標記:
/* C or C++ Usage */ while(cond){ IACA_START /* Innermost Loop Body */ /* ... */ } IACA_END
組裝(x86):
插入指定的魔術位元組模式以手動指定標記:
/* NASM Usage */ mov ebx, 111 ; Start marker bytes db 0x64, 0x67, 0x90 ; Start marker bytes .innermostlooplabel: ; Loop body ; ... jne .innermostlooplabel ; Conditional Branch Backwards to Top of Loop mov ebx, 222 ; End marker bytes db 0x64, 0x67, 0x90 ; End marker bytes
命令列呼叫:
使用適當的參數從命令列調用IACA,例如as:
iaca.sh -64 -arch HSW -graph insndeps.dot foo
這將分析 Haswell CPU 上的 64 位元二進位 foo,產生分析報告和 Graphviz 視覺化。
輸出解釋:
輸出報告提供了有關目標代碼的調度和瓶頸的詳細資訊。例如,考慮以下彙編程式碼片段:
.L2: vmovaps ymm1, [rdi+rax] ;L2 vfmadd231ps ymm1, ymm2, [rsi+rax] ;L2 vmovaps [rdx+rax], ymm1 ; S1 add rax, 32 ; ADD jne .L2 ; JMP
透過在此程式碼周圍插入標記並對其進行分析,IACA 可能會報告(刪節):
Throughput Analysis Report -------------------------- Block Throughput: 1.55 Cycles Throughput Bottleneck: FrontEnd, PORT2_AGU, PORT3_AGU [Port Pressure Breakdown] | Instruction --------------------------|----------------- | | vmovaps ymm1, ymmword ptr [rdi+rax*1] | 0.5 CP | | 1.5 CP | vfmadd231ps ymm1, ymm2, ymmword ptr [rsi+rax*1] | 1.5 CP | vmovaps ymmword ptr [rdx+rax*1], ymm1 | 1 CP | add rax, 0x20 | 0 CP | jnz 0xffffffffffffffec
從此輸出中,IACA 識別出Haswell 前端以及連接埠2 和連接埠3 的AGU 是瓶頸。這表明優化連接埠 7 處理的儲存指令可以提高效能。
限制:
IACA 有一些限制:
以上是英特爾架構程式碼分析器 (IACA) 如何協助分析和最佳化英特爾 CPU 的程式碼效能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!