찾다
백엔드 개발C++루프 카운터를 `unsigned`에서 `uint64_t`로 변경하면 x86 CPU에서 `_mm_popcnt_u64`의 성능에 큰 영향을 미치는 이유는 무엇이며 컴파일러 최적화 및 변수 선언은 어떻게 영향을 줍니까?

Why does changing a loop counter from `unsigned` to `uint64_t` significantly impact the performance of `_mm_popcnt_u64` on x86 CPUs, and how does compiler optimization and variable declaration affect this performance difference?

u64 루프 카운터와 x86 CPU의 _mm_popcnt_u64 간의 특이한 성능 차이 탐색

소개

대규모 데이터 배열에 대한 작업을 빠르게 수행할 수 있는 방법을 찾고 있습니다. popcount 메서드를 사용할 때 매우 이상한 동작이 발생했습니다. 루프 변수를 unsigned에서 uint64_t로 변경하면 PC 성능이 50% 저하되었습니다.

벤치마크

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout <p>보시다시피 xMB 크기의 무작위 데이터 버퍼를 생성했습니다. 여기서 x는 명령줄에서 읽혀집니다. 그런 다음 버퍼를 반복하고 x86 popcount 내장 함수의 펼쳐진 버전을 사용하여 popcount를 수행합니다. 보다 정확한 결과를 얻기 위해 popcount를 10,000번 수행합니다. 팝카운트를 측정하는 시간입니다. 첫 번째 경우 내부 루프 변수는 부호가 없으며 두 번째 경우 내부 루프 변수는 uint64_t입니다. 나는 이것이 아무런 차이가 없어야 한다고 생각했지만 그렇지 않습니다. </p>
<p><strong>(완전 미친) 결과 </strong></p>
<p>이렇게 컴파일했습니다(g 버전: Ubuntu 4.8.2-19ubuntu1): </p>
<pre class="brush:php;toolbar:false">g++ -O3 -march=native -std=c++11 test.cpp -o test

이것 Haswell Core i7-4770K CPU @ 3.50GHz에서 테스트를 실행했습니다. 1에 대한 결과(임의의 데이터 1MB):

  • unsigned 41959360000 0.401554초 26.113GB/초
  • uint64_t 41959360000 0.759822초 13.8003 GB/sec

보시다시피 uint64_t 버전은 서명되지 않은 버전에 비해 처리량이 절반입니다! 문제는 서로 다른 어셈블리가 생성되는 것 같은데, 그 이유는 무엇일까요? 먼저 컴파일러 버그인 줄 알고 clang(Ubuntu Clang 버전 3.4-1ubuntu3)을 시도해 보았습니다. GB/sec

clang++ -O3 -march=native -std=c++11 teest.cpp -o test
uint64_t 41959360000 0.680954 sec 15.3986 GB/sec

    그래서 거의 같은 결과를 얻으면서도 여전히 이상합니다. 그런데 이제 정말 이상해졌습니다. 입력에서 읽은 버퍼 크기를 상수 1로 대체하여
  • 에서

로 변경했습니다. 따라서 컴파일러는 이제 컴파일 타임에 버퍼 크기를 알게 됩니다. 어쩌면 일부 최적화를 추가할 수도 있습니다! g 단위의 숫자는 다음과 같습니다.

uint64_t size = atol(argv[1]) <p>unsigned 41959360000 0.509156초 20.5944GB/sec </p><pre class="brush:php;toolbar:false">uint64_t size = 1 uint64_t 41959360000 0.508673초 20.6139 GB/초 <p></p>
    이제 두 버전 모두 속도가 동일합니다. 하지만 벨로시데이드는 unsigned에 비해 훨씬 느려집니다! 26GB/초에서 20GB/초로 떨어졌기 때문에 일반적이지 않은 상수를 상수 값으로 바꾸면
  • 최적화 해제
  • 가 발생했습니다. 진지하게, 나는 여기에 단서가 없습니다! 하지만 이제 clang과 새 버전에서는
이 다음으로 변경되었습니다.

결과:

  • 부호 없음 41959360000 0.677009초 15.4884GB/s
  • uint64_t 41959360000 0.676909초 15.4906 GB/s

잠깐, 무슨 일이 일어난 걸까요? 이제 두 버전 모두 15GB/s의 낮은 속도로 낮아졌습니다. 따라서 색다른 상수 값을 상수 값으로 바꾸면 Clang의 두 가지 버전 코드가 느려지는 결과가 발생하기도 했습니다!

Ivy Bridge CPU를 사용하는 동료에게 벤치마크를 컴파일해 달라고 요청했습니다. 그는 비슷한 결과를 얻었으므로 이것은 Haswell에만 국한된 것 같지 않습니다. 여기서 두 개의 컴파일러가 이상한 결과를 생성하므로 이 역시 컴파일러 버그는 아닌 것 같습니다. 여기에는 AMD CPU가 없으므로 테스트에는 Intel만 사용할 수 있습니다.

더 광란을 불러주세요!

첫 번째 예(atol(argv[1])가 있는 예)를 사용하여 변수 앞에 정적 변수를 넣습니다. 예:

#include <iostream>
#include <chrono>
#include <x86intrin.h>

int main(int argc, char* argv[]) {

    using namespace std;
    if (argc != 2) {
       cerr (buffer);
    for (unsigned i=0; i<size charbuffer rand uint64_t count chrono::time_point> startP,endP;
    {
        startP = chrono::system_clock::now();
        count = 0;
        for( unsigned k = 0; k (endP-startP).count();
        cout (endP-startP).count();
        cout <p>여기에 그녀가 결과는 g: </p>
<ul>
<li>unsigned 41959360000 0.396728초 26.4306GB/초 </li>
<li>uint64_t 41959360000 0.509484초 20.5811GB/초 </li>
</ul>
<p>아, 또 다른 대안이 있습니다! u3에는 여전히 32GB/s가 있지만 최소한 13GB/s 버전에서 20GB/s 버전으로 u64를 얻을 수 있었습니다! 내 동료의 컴퓨터에서는 u64 버전이 u32 버전보다 훨씬 빨라서 최상의 결과를 얻었습니다. 불행히도 이것은 g 에서만 작동하며 clang은 정적에 신경 쓰지 않는 것 같습니다. </p>
<p>**내 질문</p></size></x86intrin.h></chrono></iostream>

위 내용은 루프 카운터를 `unsigned`에서 `uint64_t`로 변경하면 x86 CPU에서 `_mm_popcnt_u64`의 성능에 큰 영향을 미치는 이유는 무엇이며 컴파일러 최적화 및 변수 선언은 어떻게 영향을 줍니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
C의 지속적인 사용 : 지구력의 이유C의 지속적인 사용 : 지구력의 이유Apr 11, 2025 am 12:02 AM

C 지속적인 사용 이유에는 고성능, 광범위한 응용 및 진화 특성이 포함됩니다. 1) 고효율 성능 : C는 메모리 및 하드웨어를 직접 조작하여 시스템 프로그래밍 및 고성능 컴퓨팅에서 훌륭하게 수행합니다. 2) 널리 사용 : 게임 개발, 임베디드 시스템 등의 분야에서의 빛나기.

C 및 XML의 미래 : 신흥 동향 및 기술C 및 XML의 미래 : 신흥 동향 및 기술Apr 10, 2025 am 09:28 AM

C 및 XML의 미래 개발 동향은 다음과 같습니다. 1) C는 프로그래밍 효율성 및 보안을 개선하기 위해 C 20 및 C 23 표준을 통해 모듈, 개념 및 코 루틴과 같은 새로운 기능을 소개합니다. 2) XML은 데이터 교환 및 구성 파일에서 중요한 위치를 계속 차지하지만 JSON 및 YAML의 문제에 직면하게 될 것이며 XMLSCHEMA1.1 및 XPATH 3.1의 개선과 같이보다 간결하고 쉽게 구문 분석하는 방향으로 발전 할 것입니다.

현대 C 디자인 패턴 : 확장 가능하고 유지 관리 가능한 소프트웨어 구축현대 C 디자인 패턴 : 확장 가능하고 유지 관리 가능한 소프트웨어 구축Apr 09, 2025 am 12:06 AM

최신 C 설계 모델은 C 11 이상의 새로운 기능을 사용하여보다 유연하고 효율적인 소프트웨어를 구축 할 수 있습니다. 1) Lambda Expressions 및 STD :: 함수를 사용하여 관찰자 패턴을 단순화하십시오. 2) 모바일 의미와 완벽한 전달을 통해 성능을 최적화하십시오. 3) 지능형 포인터는 유형 안전 및 자원 관리를 보장합니다.

C 다중 스레딩 및 동시성 : 병렬 프로그래밍 마스터 링C 다중 스레딩 및 동시성 : 병렬 프로그래밍 마스터 링Apr 08, 2025 am 12:10 AM

C 멀티 스레딩 및 동시 프로그래밍의 핵심 개념에는 스레드 생성 및 관리, 동기화 및 상호 제외, 조건부 변수, 스레드 풀링, 비동기 프로그래밍, 일반적인 오류 및 디버깅 기술, 성능 최적화 및 모범 사례가 포함됩니다. 1) std :: 스레드 클래스를 사용하여 스레드를 만듭니다. 예제는 스레드가 완성 될 때까지 생성하고 기다리는 방법을 보여줍니다. 2) std :: mutex 및 std :: lock_guard를 사용하여 공유 리소스를 보호하고 데이터 경쟁을 피하기 위해 동기화 및 상호 배제. 3) 조건 변수는 std :: 조건 _variable을 통한 스레드 간의 통신과 동기화를 실현합니다. 4) 스레드 풀 예제는 ThreadPool 클래스를 사용하여 효율성을 향상시키기 위해 작업을 병렬로 처리하는 방법을 보여줍니다. 5) 비동기 프로그래밍은 std :: as를 사용합니다

C Deep Dive : 메모리 관리, 포인터 및 템플릿 마스터 링C Deep Dive : 메모리 관리, 포인터 및 템플릿 마스터 링Apr 07, 2025 am 12:11 AM

C의 메모리 관리, 포인터 및 템플릿은 핵심 기능입니다. 1. 메모리 관리는 새롭고 삭제를 통해 메모리를 수동으로 할당하고 릴리스하며 힙과 스택의 차이에주의를 기울입니다. 2. 포인터는 메모리 주소를 직접 작동시키고주의해서 사용할 수 있습니다. 스마트 포인터는 관리를 단순화 할 수 있습니다. 3. 템플릿은 일반적인 프로그래밍을 구현하고 코드 재사용 성과 유연성을 향상 시키며 유형 파생 및 전문화를 이해해야합니다.

C 및 시스템 프로그래밍 : 저수준 제어 및 하드웨어 상호 작용C 및 시스템 프로그래밍 : 저수준 제어 및 하드웨어 상호 작용Apr 06, 2025 am 12:06 AM

C는 시스템 프로그래밍 및 하드웨어 상호 작용에 적합합니다. 하드웨어에 가까운 제어 기능 및 객체 지향 프로그래밍의 강력한 기능을 제공하기 때문입니다. 1) C는 포인터, 메모리 관리 및 비트 운영과 같은 저수준 기능을 통해 효율적인 시스템 수준 작동을 달성 할 수 있습니다. 2) 하드웨어 상호 작용은 장치 드라이버를 통해 구현되며 C는 이러한 드라이버를 작성하여 하드웨어 장치와의 통신을 처리 할 수 ​​있습니다.

C와의 게임 개발 : 고성능 게임 및 시뮬레이션 구축C와의 게임 개발 : 고성능 게임 및 시뮬레이션 구축Apr 05, 2025 am 12:11 AM

C는 하드웨어 제어 및 효율적인 성능에 가깝기 때문에 고성능 게임 및 시뮬레이션 시스템을 구축하는 데 적합합니다. 1) 메모리 관리 : 수동 제어는 단편화를 줄이고 성능을 향상시킵니다. 2) 컴파일 타임 최적화 : 인라인 함수 및 루프 확장은 달리기 속도를 향상시킵니다. 3) 저수준 작업 : 하드웨어에 직접 액세스하고 그래픽 및 물리 컴퓨팅을 최적화합니다.

C 언어 파일 작동 문제의 진실C 언어 파일 작동 문제의 진실Apr 04, 2025 am 11:24 AM

파일 작동 문제에 대한 진실 : 파일 개방이 실패 : 불충분 한 권한, 잘못된 경로 및 파일이 점유 된 파일. 데이터 쓰기 실패 : 버퍼가 가득 차고 파일을 쓸 수 없으며 디스크 공간이 불충분합니다. 기타 FAQ : 파일이 느리게 이동, 잘못된 텍스트 파일 인코딩 및 이진 파일 읽기 오류.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경