>백엔드 개발 >C++ >32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?

32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-03 15:04:10731검색

Why Does Replacing a 32-bit Loop Counter with 64-bit Cause Performance Degradation with `_mm_popcnt_u64` on Intel CPUs?

32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 mm_popcnt_u64로 엄청난 성능 편차가 발생합니다

요약

이 기사에서는 32비트를 교체할 때 발생하는 성능 편차를 조사합니다. _mm_popcnt_u64 내장 함수를 사용하여 성능이 중요한 루프에서 64비트 카운터가 있는 루프 카운터. 이 문제로 인해 Intel CPU의 성능이 크게 저하되어 실행 속도가 달라졌습니다. 작성자는 이러한 동작의 원인을 탐색하고 잠재적인 해결책을 제시합니다.

세부 정보

문제의 코드에는 데이터 배열을 반복하고 팝 카운트를 수행하는 루프가 포함되어 있습니다. x86 내장 명령어를 사용한 작업. 루프 카운터 변수는 처음에는 부호 없는 정수였지만 64비트 부호 없는 정수(uint64_t)로 바꾸면 성능이 약 50% 저하되었습니다.

원인을 조사하기 위해 작성자는 다음과 같이 코드를 컴파일했습니다. 다양한 최적화 플래그를 적용하고 결과 어셈블리 코드를 분석했습니다. 32비트 버전과 64비트 버전에서 서로 다른 어셈블리가 생성되는 것을 관찰하여 컴파일러 버그를 의심했습니다.

그러나 다른 컴파일러로 코드를 테스트한 후 작성자는 문제가 아니라고 결론을 내렸습니다. 컴파일러 버그가 아니라 하드웨어의 잘못된 데이터 종속성으로 인해 발생합니다. Intel Sandy/Ivy Bridge 및 Haswell 프로세서에서 사용되는 _mm_popcnt_u64 명령은 명령이 실행되기 전에 대상이 준비될 때까지 기다리는 대상 레지스터에 대한 잘못된 종속성을 나타냅니다. 이러한 잘못된 종속성은 루프 반복을 통해 전달되어 프로세서가 다른 반복을 병렬화하는 것을 방지하고 성능 손실로 이어질 수 있습니다.

저자는 팝카운트 작업을 격리하고 잘못된 종속성을 깨뜨려 성능 차이를 보여주는 인라인 어셈블리 테스트를 제시합니다. 체인. 이 테스트에서는 잘못된 종속성이 성능에 심각한 영향을 미쳐 속도가 18.6195GB/s에서 8.49272GB/s로 감소한다는 사실을 보여줍니다.

이 기사에서는 또한 이 문제가 Intel CPU에 영향을 미치는 반면 AMD 프로세서에는 영향을 미친다는 점을 강조합니다. 이 내용이 거짓인 것 같지는 않습니다. dependency.

솔루션

이 성능 문제를 완화하기 위해 저자는 여러 솔루션을 제안합니다.

  • 대신 32비트 루프 카운터 사용 이 특정 루프에 대한 64비트 카운터입니다.
  • 64비트 루프 카운터를 사용하는 경우 필요한 경우 대상 레지스터를 팝카운트 작업에 사용하기 전에 명시적으로 0으로 설정하여 잘못된 종속성 체인을 끊습니다.
  • 이러한 잘못된 종속성을 인식하고 이를 보상하는 코드를 생성하는 컴파일러를 사용하세요.

위 내용은 32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.