마스크를 사용한 왼쪽 패킹에 AVX2를 어떻게 가장 효율적으로 사용할 수 있습니까?-C++-php.cn

집

백엔드 개발

C++

마스크를 사용한 왼쪽 패킹에 AVX2를 어떻게 가장 효율적으로 사용할 수 있습니까?

Patricia Arquette

Dec 22, 2024 pm 04:39 PM

How Can AVX2 Be Used Most Efficiently for Left Packing with a Mask?

왼쪽 패킹 문제

입력 배열과 출력 배열이 있지만 조건을 만족하는 특정 요소만 필요한 시나리오를 생각해 보세요. 출력 배열에 기록됩니다. AVX2를 사용하여 이를 달성하는 가장 효율적인 접근 방식은 무엇입니까?

SSE 접근 방식

SSE 접근 방식에는 _mm_movemask_ps를 사용하여 입력 마스크에서 4비트 마스크를 추출하는 작업이 포함됩니다. 그런 다음 이 마스크를 사용하여 _mm_load_si128로 셔플 제어 데이터를 생성합니다. 마지막으로 _mm_shuffle_epi8을 사용하여 SIMD 레지스터 앞의 유효한 요소를 정렬하기 위해 값을 순열합니다. 이 접근 방식은 16개 항목 LUT(룩업 테이블)가 있는 4와이드 SSE 벡터에 적합합니다.

AVX 제한 사항

그러나 8와이드 AVX의 경우 벡터의 경우 LUT에는 각 항목이 32바이트인 상당히 많은 수의 항목(256개)이 필요하므로 메모리 사용량은 8k가 됩니다. AVX에서는 포장을 한 마스크 매장 등 이 과정을 단순화하는 지침을 제공하지 않는다는 점이 놀랍습니다.

AVX2 솔루션

전담 지침이 없음에도 불구하고 , 다음의 조합을 사용하여 AVX2에서 효율적인 왼쪽 패킹을 달성하는 것이 가능합니다. 기술:

가변 셔플에 vpermps 사용: _mm256_permutevar8x32_ps를 사용하면 차선 교차 가변 셔플을 수행하여 마스크를 기반으로 데이터를 압축할 수 있습니다.
즉시 마스크 생성: BMI2는 입력 마스크에서 비트를 추출하고 셔플 제어 데이터를 생성하는 데 사용할 수 있는 pext(병렬 비트 추출) 명령을 제공합니다.
AMD CPU에서는 pdep/pext를 피하세요. AMD Zen 3 이전의 CPU는 pdep 및 pext에 대한 대기 시간이 상당히 높으므로 최적의 환경을 위해서는 대체 접근 방식이 필요할 수 있습니다.

알고리즘

AVX2의 왼쪽 패킹 알고리즘은 다음 단계로 구성됩니다.

입력에서 인덱스 추출 pext를 사용하여 마스크.
인덱스 압축을 풀어 셔플을 생성합니다. 마스크.
vpermps를 사용하여 셔플 마스크에 따라 입력 데이터를 셔플합니다.

결론

이 접근 방식은 매우 효율적인 솔루션을 제공합니다. AVX2의 왼쪽 패킹용입니다. vpermps, pext 및 기타 BMI2 명령어를 활용하면 오버헤드와 대기 시간을 최소화하면서 마스크 기반으로 데이터를 패킹할 수 있습니다.

위 내용은 마스크를 사용한 왼쪽 패킹에 AVX2를 어떻게 가장 효율적으로 사용할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

C# vs. C : 역사, 진화 및 미래 전망Apr 19, 2025 am 12:07 AM

C#과 C의 역사와 진화는 독특하며 미래의 전망도 다릅니다. 1.C는 1983 년 Bjarnestroustrup에 의해 발명되어 객체 지향 프로그래밍을 C 언어에 소개했습니다. Evolution 프로세스에는 자동 키워드 소개 및 Lambda Expressions 소개 C 11, C 20 도입 개념 및 코 루틴과 같은 여러 표준화가 포함되며 향후 성능 및 시스템 수준 프로그래밍에 중점을 둘 것입니다. 2.C#은 2000 년 Microsoft에 의해 출시되었으며 C와 Java의 장점을 결합하여 진화는 단순성과 생산성에 중점을 둡니다. 예를 들어, C#2.0은 제네릭과 C#5.0 도입 된 비동기 프로그래밍을 소개했으며, 이는 향후 개발자의 생산성 및 클라우드 컴퓨팅에 중점을 둘 것입니다.

C# vs. C : 학습 곡선 및 개발자 경험Apr 18, 2025 am 12:13 AM

C# 및 C 및 개발자 경험의 학습 곡선에는 상당한 차이가 있습니다. 1) C#의 학습 곡선은 비교적 평평하며 빠른 개발 및 기업 수준의 응용 프로그램에 적합합니다. 2) C의 학습 곡선은 가파르고 고성능 및 저수준 제어 시나리오에 적합합니다.

C# vs. C : 객체 지향 프로그래밍 및 기능Apr 17, 2025 am 12:02 AM

C# 및 C가 객체 지향 프로그래밍 (OOP)의 구현 및 기능에 상당한 차이가 있습니다. 1) C#의 클래스 정의 및 구문은 더 간결하고 LINQ와 같은 고급 기능을 지원합니다. 2) C는 시스템 프로그래밍 및 고성능 요구에 적합한 더 미세한 입상 제어를 제공합니다. 둘 다 고유 한 장점이 있으며 선택은 특정 응용 프로그램 시나리오를 기반으로해야합니다.

XML에서 C로 : 데이터 변환 및 조작Apr 16, 2025 am 12:08 AM

XML에서 C로 변환하고 다음 단계를 통해 수행 할 수 있습니다. 1) TinyxML2 라이브러리를 사용하여 XML 파일을 파싱하는 것은 2) C의 데이터 구조에 데이터를 매핑, 3) 데이터 운영을 위해 std :: 벡터와 같은 C 표준 라이브러리를 사용합니다. 이러한 단계를 통해 XML에서 변환 된 데이터를 효율적으로 처리하고 조작 할 수 있습니다.

C# vs. C : 메모리 관리 및 쓰레기 수집Apr 15, 2025 am 12:16 AM

C#은 자동 쓰레기 수집 메커니즘을 사용하는 반면 C는 수동 메모리 관리를 사용합니다. 1. C#의 쓰레기 수집기는 메모리 누출 위험을 줄이기 위해 메모리를 자동으로 관리하지만 성능 저하로 이어질 수 있습니다. 2.C는 유연한 메모리 제어를 제공하며, 미세 관리가 필요한 애플리케이션에 적합하지만 메모리 누출을 피하기 위해주의해서 처리해야합니다.

과대 광고 : 오늘 C의 관련성을 평가합니다Apr 14, 2025 am 12:01 AM

C는 여전히 현대 프로그래밍과 관련이 있습니다. 1) 고성능 및 직접 하드웨어 작동 기능은 게임 개발, 임베디드 시스템 및 고성능 컴퓨팅 분야에서 첫 번째 선택이됩니다. 2) 스마트 포인터 및 템플릿 프로그래밍과 같은 풍부한 프로그래밍 패러다임 및 현대적인 기능은 유연성과 효율성을 향상시킵니다. 학습 곡선은 가파르지만 강력한 기능은 오늘날의 프로그래밍 생태계에서 여전히 중요합니다.

C 커뮤니티 : 자원, 지원 및 개발Apr 13, 2025 am 12:01 AM

C 학습자와 개발자는 StackoverFlow, Reddit의 R/CPP 커뮤니티, Coursera 및 EDX 코스, GitHub의 오픈 소스 프로젝트, 전문 컨설팅 서비스 및 CPPCon에서 리소스와 지원을받을 수 있습니다. 1. StackoverFlow는 기술적 인 질문에 대한 답변을 제공합니다. 2. Reddit의 R/CPP 커뮤니티는 최신 뉴스를 공유합니다. 3. Coursera와 Edx는 공식적인 C 과정을 제공합니다. 4. LLVM 및 부스트 기술 향상과 같은 GitHub의 오픈 소스 프로젝트; 5. JetBrains 및 Perforce와 같은 전문 컨설팅 서비스는 기술 지원을 제공합니다. 6. CPPCON 및 기타 회의는 경력을 돕습니다

C# vs. C : 각 언어가 탁월한 곳Apr 12, 2025 am 12:08 AM

C#은 높은 개발 효율성과 크로스 플랫폼 지원이 필요한 프로젝트에 적합한 반면 C#은 고성능 및 기본 제어가 필요한 응용 프로그램에 적합합니다. 1) C#은 개발을 단순화하고, 쓰레기 수집 및 리치 클래스 라이브러리를 제공하며, 엔터프라이즈 레벨 애플리케이션에 적합합니다. 2) C는 게임 개발 및 고성능 컴퓨팅에 적합한 직접 메모리 작동을 허용합니다.

See all articles