问题:
尽管预期数组比切片更快,因为由于其连续性,经验测试表明,本地切片在访问其元素时比本地数组要快得多。为什么会出现这种情况?
背景:
进行了基准测试来比较访问数组和切片元素(包括全局和局部变量)的性能。令人惊讶的是,本地切片成为最快的选择。
答案:
对本地数组和切片基准的 amd64 汇编的检查揭示了一个潜在的罪魁祸首。虽然这两种方法都采用类似的操作,但数组版本在每次访问期间重复从内存加载数组地址:
LEAQ "".a+1000(SP),BX
相反,切片版本主要对寄存器进行操作,仅从内存执行一次初始加载:
LEAQ (DX)(SI*1),BX
此外,数组版本会调用runtime.duffcopy 汇编例程,而切片版本则不会。此额外的运行时调用可能会导致数组版本的性能降低。
附加说明:
无论数组/切片大小如何变化,观察到的性能差异仍然存在,元素类型,以及基准测试执行的顺序。
以上是为什么本地 Go 切片的元素访问速度比本地数组更快?的详细内容。更多信息请关注PHP中文网其他相关文章!