어셈블리를 사용하여 __mm_add_epi32_inplace_purego 최적화
이 질문은 바이트 배열에서 위치 채우기 계산을 수행하는 __mm_add_epi32_inplace_purego 함수의 내부 루프를 최적화하는 방법을 모색합니다. 목표는 어셈블리 지침을 활용하여 성능을 향상시키는 것입니다.
내부 루프의 원래 Go 구현:
__mm_add_epi32_inplace_purego(&counts[i], expand)
'&counts[i]'를 사용하여 주소 전달 배열 요소는 비효율적일 수 있습니다. 이를 최적화하기 위해 대신 전체 배열에 포인터를 전달할 수 있습니다.
__mm_add_epi32_inplace_inplace_purego(counts, expand)
이 수정은 배열을 인수로 전달하는 것과 관련된 오버헤드를 줄입니다.
또한 내부 루프는 더 나아질 수 있습니다. 조립 지침을 사용하여 최적화되었습니다. 다음 어셈블리 코드는 어셈블리에 구현된 __mm_add_epi32_inplace_purego 버전입니다.
// func __mm_add_epi32_inplace_asm(counts *[8]int32, expand *[8]int32) TEXT ·__mm_add_epi32_inplace_asm(SB),NOSPLIT,-16 MOVQ counts+0(FP), DI MOVQ expand+8(FP), SI MOVL 8*0(DI), AX // load counts[0] ADDL 8*0(SI), AX // add expand[0] MOVL AX, 8*0(DI) // store result in counts[0] MOVL 8*1(DI), AX // load counts[1] ADDL 8*1(SI), AX // add expand[1] MOVL AX, 8*1(DI) // store result in counts[1] MOVL 8*2(DI), AX // load counts[2] ADDL 8*2(SI), AX // add expand[2] MOVL AX, 8*2(DI) // store result in counts[2] MOVL 8*3(DI), AX // load counts[3] ADDL 8*3(SI), AX // add expand[3] MOVL AX, 8*3(DI) // store result in counts[3] MOVL 8*4(DI), AX // load counts[4] ADDL 8*4(SI), AX // add expand[4] MOVL AX, 8*4(DI) // store result in counts[4] MOVL 8*5(DI), AX // load counts[5] ADDL 8*5(SI), AX // add expand[5] MOVL AX, 8*5(DI) // store result in counts[5] MOVL 8*6(DI), AX // load counts[6] ADDL 8*6(SI), AX // add expand[6] MOVL AX, 8*6(DI) // store result in counts[6] MOVL 8*7(DI), AX // load counts[7] ADDL 8*7(SI), AX // add expand[7] MOVL AX, 8*7(DI) // store result in counts[7] RET
이 어셈블리 코드는 'counts' 및 'expand' 요소를 레지스터에 로드하고 추가를 수행한 다음 결과를 다시 ' 카운트'. 배열을 인수로 전달할 필요가 없고 효율적인 조립 명령을 사용함으로써 이 코드는 내부 루프의 성능을 크게 향상시킵니다.
요약하자면, 요소의 주소 대신 배열에 포인터를 전달함으로써 어셈블리에 내부 루프를 구현하면 __mm_add_epi32_inplace_purego 함수를 최적화하여 위치 인구 계산 작업의 성능을 향상시킬 수 있습니다.
위 내용은 위치 인구 계산 작업의 성능을 향상시키기 위해 어셈블리 지침을 사용하여 __mm_add_epi32_inplace_purego 함수를 어떻게 최적화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!