요약
이 기사에서는 32비트를 교체할 때 발생하는 성능 편차를 조사합니다. _mm_popcnt_u64 내장 함수를 사용하여 성능이 중요한 루프에서 64비트 카운터가 있는 루프 카운터. 이 문제로 인해 Intel CPU의 성능이 크게 저하되어 실행 속도가 달라졌습니다. 작성자는 이러한 동작의 원인을 탐색하고 잠재적인 해결책을 제시합니다.
세부 정보
문제의 코드에는 데이터 배열을 반복하고 팝 카운트를 수행하는 루프가 포함되어 있습니다. x86 내장 명령어를 사용한 작업. 루프 카운터 변수는 처음에는 부호 없는 정수였지만 64비트 부호 없는 정수(uint64_t)로 바꾸면 성능이 약 50% 저하되었습니다.
원인을 조사하기 위해 작성자는 다음과 같이 코드를 컴파일했습니다. 다양한 최적화 플래그를 적용하고 결과 어셈블리 코드를 분석했습니다. 32비트 버전과 64비트 버전에서 서로 다른 어셈블리가 생성되는 것을 관찰하여 컴파일러 버그를 의심했습니다.
그러나 다른 컴파일러로 코드를 테스트한 후 작성자는 문제가 아니라고 결론을 내렸습니다. 컴파일러 버그가 아니라 하드웨어의 잘못된 데이터 종속성으로 인해 발생합니다. Intel Sandy/Ivy Bridge 및 Haswell 프로세서에서 사용되는 _mm_popcnt_u64 명령은 명령이 실행되기 전에 대상이 준비될 때까지 기다리는 대상 레지스터에 대한 잘못된 종속성을 나타냅니다. 이러한 잘못된 종속성은 루프 반복을 통해 전달되어 프로세서가 다른 반복을 병렬화하는 것을 방지하고 성능 손실로 이어질 수 있습니다.
저자는 팝카운트 작업을 격리하고 잘못된 종속성을 깨뜨려 성능 차이를 보여주는 인라인 어셈블리 테스트를 제시합니다. 체인. 이 테스트에서는 잘못된 종속성이 성능에 심각한 영향을 미쳐 속도가 18.6195GB/s에서 8.49272GB/s로 감소한다는 사실을 보여줍니다.
이 기사에서는 또한 이 문제가 Intel CPU에 영향을 미치는 반면 AMD 프로세서에는 영향을 미친다는 점을 강조합니다. 이 내용이 거짓인 것 같지는 않습니다. dependency.
솔루션
이 성능 문제를 완화하기 위해 저자는 여러 솔루션을 제안합니다.
위 내용은 32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!