최근에 저는 포아송 분포를 계산하는 함수(amath_pdist)를 멀티스레드로 구현하는 작업을 하고 있었습니다. 목표는 작업 부하를 여러 스레드로 나누어 특히 대규모 어레이의 성능을 향상시키는 것이었습니다. 하지만 기대했던 속도 향상보다는 어레이의 크기가 커지면서 속도가 크게 느려지는 현상이 나타났습니다.
몇몇 조사 끝에 범인을 발견했습니다: 허위 공유. 이번 포스팅에서는 잘못된 공유가 무엇인지 설명하고, 문제를 일으키는 원본 코드를 보여주며, 실질적인 성능 향상을 가져온 수정 사항을 공유하겠습니다.
문제: 다중 스레드 코드의 잘못된 공유
거짓 공유는 여러 스레드가 공유 배열의 서로 다른 부분에서 작동하지만 해당 데이터가 동일한 캐시 라인에 있는 경우에 발생합니다. 캐시 라인은 메모리와 CPU 캐시 사이에 전송되는 데이터의 가장 작은 단위입니다(일반적으로 64바이트). 한 스레드가 캐시 라인의 일부에 쓰면 다른 스레드가 논리적으로 독립적인 데이터에 대해 작업 중이더라도 해당 라인이 무효화됩니다. 이러한 불필요한 무효화는 캐시 라인을 반복적으로 다시 로드하여 상당한 성능 저하를 초래합니다.
다음은 원래 코드의 단순화된 버전입니다.
void *calculate_pdist_segment(void *data) { struct pdist_segment *segment = (struct pdist_segment *)data; size_t interval_a = segment->interval_a, interval_b = segment->interval_b; double lambda = segment->lambda; int *d = segment->data; for (size_t i = interval_a; i pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1); } return NULL; } double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist = malloc(sizeof(double) * n_elements); pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 문제가 발생하는 곳 </h3> <p>위 코드에서:</p>
- 배열 pdist는 모든 스레드에서 공유됩니다.
- 각 스레드는 특정 인덱스 범위(interval_a~interval_b)에 씁니다.
- 세그먼트 경계에서 인접한 인덱스는 동일한 캐시 라인에 있을 수 있습니다. 예를 들어, pdist[249999]와 pdist[250000]가 캐시 라인을 공유하는 경우 스레드 1(pdist[249999]에서 작업)과 스레드 2(pdist[250000]에서 작업)는 서로의 캐시 라인을 무효화합니다.
이 문제는 더 큰 어레이에서는 제대로 확장되지 않았습니다. 경계 문제는 사소해 보일 수 있지만 반복 횟수가 너무 많아 캐시 무효화 비용이 확대되어 몇 초 동안 불필요한 오버헤드가 발생했습니다.
해결책: 캐시 라인 경계에 메모리 정렬
문제를 해결하기 위해 posix_memalign을 사용하여 pdist 배열이 64바이트 경계에 정렬되었는지 확인했습니다. 이는 스레드가 완전히 독립적인 캐시 라인에서 작동하도록 보장하여 잘못된 공유를 방지합니다.
업데이트된 코드는 다음과 같습니다.
double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist; if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) { perror("Failed to allocate aligned memory"); return NULL; } pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i <hr> <h3> 이것이 작동하는 이유는 무엇입니까? </h3> <ol> <li> <p><strong>정렬된 메모리</strong>:</p> <ul> <li>posix_memalign을 사용하면 배열이 캐시 라인 경계에서 시작됩니다.</li> <li>각 스레드에 할당된 범위는 캐시 라인과 깔끔하게 정렬되어 중복을 방지합니다.</li> </ul> </li> <li> <p><strong>캐시 라인 공유 없음</strong>:</p> <ul> <li>스레드는 별개의 캐시 라인에서 작동하여 잘못된 공유로 인한 무효화를 제거합니다.</li> </ul> </li> <li> <p><strong>향상된 캐시 효율성</strong>:</p> <ul> <li>순차적 메모리 액세스 패턴은 CPU 프리페처와 잘 일치하여 성능을 더욱 향상시킵니다.</li> </ul> </li> </ol> <hr> <h3> 결과 및 시사점 </h3> <p>수정 사항을 적용한 후 amat_pdist 함수의 런타임이 크게 떨어졌습니다. 제가 테스트한 데이터 세트의 경우 벽시계 시간이 <strong>10.92초에서 0.06초</strong>로 떨어졌습니다.</p> <h4> 주요 교훈: </h4> <ol> <li> <strong>거짓 공유</strong>는 멀티 스레드 애플리케이션에서 미묘하지만 중요한 문제입니다. 세그먼트 경계에서 작은 겹침도 성능을 저하시킬 수 있습니다.</li> <li> posix_memalign을 사용하는 <strong>메모리 정렬</strong>은 잘못된 공유를 해결하는 간단하고 효과적인 방법입니다. 메모리를 캐시 라인 경계에 맞춰 정렬하면 스레드가 독립적으로 작동할 수 있습니다.</li> <li>대규모 배열이나 병렬 처리 작업을 할 때는 항상 코드에서 캐시 관련 문제를 분석하세요. perf 또는 valgrind와 같은 도구는 병목 현상을 찾아내는 데 도움이 될 수 있습니다.</li> </ol> <p>읽어주셔서 감사합니다!</p> <p>코드가 궁금하신 분은 여기에서 찾으실 수 있습니다</p>
위 내용은 내가 겪었던 실제 문제를 통해 멀티 스레드 응용 프로그램의 거짓 공유 이해 및 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

C 지속적인 사용 이유에는 고성능, 광범위한 응용 및 진화 특성이 포함됩니다. 1) 고효율 성능 : C는 메모리 및 하드웨어를 직접 조작하여 시스템 프로그래밍 및 고성능 컴퓨팅에서 훌륭하게 수행합니다. 2) 널리 사용 : 게임 개발, 임베디드 시스템 등의 분야에서의 빛나기.

C 및 XML의 미래 개발 동향은 다음과 같습니다. 1) C는 프로그래밍 효율성 및 보안을 개선하기 위해 C 20 및 C 23 표준을 통해 모듈, 개념 및 코 루틴과 같은 새로운 기능을 소개합니다. 2) XML은 데이터 교환 및 구성 파일에서 중요한 위치를 계속 차지하지만 JSON 및 YAML의 문제에 직면하게 될 것이며 XMLSCHEMA1.1 및 XPATH 3.1의 개선과 같이보다 간결하고 쉽게 구문 분석하는 방향으로 발전 할 것입니다.

최신 C 설계 모델은 C 11 이상의 새로운 기능을 사용하여보다 유연하고 효율적인 소프트웨어를 구축 할 수 있습니다. 1) Lambda Expressions 및 STD :: 함수를 사용하여 관찰자 패턴을 단순화하십시오. 2) 모바일 의미와 완벽한 전달을 통해 성능을 최적화하십시오. 3) 지능형 포인터는 유형 안전 및 자원 관리를 보장합니다.

C 멀티 스레딩 및 동시 프로그래밍의 핵심 개념에는 스레드 생성 및 관리, 동기화 및 상호 제외, 조건부 변수, 스레드 풀링, 비동기 프로그래밍, 일반적인 오류 및 디버깅 기술, 성능 최적화 및 모범 사례가 포함됩니다. 1) std :: 스레드 클래스를 사용하여 스레드를 만듭니다. 예제는 스레드가 완성 될 때까지 생성하고 기다리는 방법을 보여줍니다. 2) std :: mutex 및 std :: lock_guard를 사용하여 공유 리소스를 보호하고 데이터 경쟁을 피하기 위해 동기화 및 상호 배제. 3) 조건 변수는 std :: 조건 _variable을 통한 스레드 간의 통신과 동기화를 실현합니다. 4) 스레드 풀 예제는 ThreadPool 클래스를 사용하여 효율성을 향상시키기 위해 작업을 병렬로 처리하는 방법을 보여줍니다. 5) 비동기 프로그래밍은 std :: as를 사용합니다

C의 메모리 관리, 포인터 및 템플릿은 핵심 기능입니다. 1. 메모리 관리는 새롭고 삭제를 통해 메모리를 수동으로 할당하고 릴리스하며 힙과 스택의 차이에주의를 기울입니다. 2. 포인터는 메모리 주소를 직접 작동시키고주의해서 사용할 수 있습니다. 스마트 포인터는 관리를 단순화 할 수 있습니다. 3. 템플릿은 일반적인 프로그래밍을 구현하고 코드 재사용 성과 유연성을 향상 시키며 유형 파생 및 전문화를 이해해야합니다.

C는 시스템 프로그래밍 및 하드웨어 상호 작용에 적합합니다. 하드웨어에 가까운 제어 기능 및 객체 지향 프로그래밍의 강력한 기능을 제공하기 때문입니다. 1) C는 포인터, 메모리 관리 및 비트 운영과 같은 저수준 기능을 통해 효율적인 시스템 수준 작동을 달성 할 수 있습니다. 2) 하드웨어 상호 작용은 장치 드라이버를 통해 구현되며 C는 이러한 드라이버를 작성하여 하드웨어 장치와의 통신을 처리 할 수 있습니다.

C는 하드웨어 제어 및 효율적인 성능에 가깝기 때문에 고성능 게임 및 시뮬레이션 시스템을 구축하는 데 적합합니다. 1) 메모리 관리 : 수동 제어는 단편화를 줄이고 성능을 향상시킵니다. 2) 컴파일 타임 최적화 : 인라인 함수 및 루프 확장은 달리기 속도를 향상시킵니다. 3) 저수준 작업 : 하드웨어에 직접 액세스하고 그래픽 및 물리 컴퓨팅을 최적화합니다.

파일 작동 문제에 대한 진실 : 파일 개방이 실패 : 불충분 한 권한, 잘못된 경로 및 파일이 점유 된 파일. 데이터 쓰기 실패 : 버퍼가 가득 차고 파일을 쓸 수 없으며 디스크 공간이 불충분합니다. 기타 FAQ : 파일이 느리게 이동, 잘못된 텍스트 파일 인코딩 및 이진 파일 읽기 오류.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.
