Rumah >pembangunan bahagian belakang >C++ >Aplikasi teknologi SIMD dalam pengoptimuman prestasi fungsi C++

Aplikasi teknologi SIMD dalam pengoptimuman prestasi fungsi C++

WBOY
WBOYasal
2024-04-23 21:12:02453semak imbas

Teknologi SIMD ialah teknologi pemprosesan selari yang boleh meningkatkan prestasi fungsi yang memproses sejumlah besar data dengan ketara. Ia membenarkan satu arahan untuk dilaksanakan pada daftar yang luas, memproses berbilang elemen data sekaligus. Dalam pertempuran sebenar, SIMD boleh digunakan melalui gelung vektor, seperti menggunakan daftar 128-bit dalam fungsi penjumlahan untuk memproses empat integer 32-bit secara serentak. Ujian prestasi menunjukkan bahawa versi fungsi bukan SIMD pada pemproses Intel i7-8700K mengambil masa 0.028 saat, manakala versi fungsi SIMD hanya mengambil masa 0.007 saat, peningkatan kira-kira 4 kali.

C++ 函数性能优化中的 SIMD 技术应用

Aplikasi Teknologi SIMD dalam Pengoptimuman Prestasi Fungsi C++

Pengenalan
Teknologi SIMD (Single Instruction Multiple Data) ialah teknologi pengoptimuman yang membenarkan perlaksanaan satu elemen pemprosesan data parael tunggal unit . Ia boleh meningkatkan prestasi fungsi yang memproses sejumlah besar data dengan ketara.

Prinsip
Arahan SIMD menggunakan daftar lebar yang lebih besar dan boleh memproses berbilang elemen data pada satu masa. Sebagai contoh, daftar 128-bit boleh mengendalikan 4 nombor titik terapung atau 8 integer secara serentak.

Kes praktikal

Kami mengambil fungsi penjumlahan sebagai contoh untuk menunjukkan aplikasi SIMD:

int sum(int* arr, int n) {
  int result = 0;
  for (int i = 0; i < n; i++) {
    result += arr[i];
  }
  return result;
}

Menggunakan SIMD, kita boleh vektorkan gelung:

#include <x86intrin.h>

int sum_simd(int* arr, int n) {
  int result = 0;
  for (int i = 0; i < n; i += 4) {
    __m128i vec = _mm_loadu_si128((__m128i*)(arr + i));
    result += _mm_reduce_add_epi32(vec);
  }
  return result;
}

Dalam kod di atas, kami menggunakan arahan __m128i 来表示宽度为 128 位的寄存器,它可以同时处理 4 个 32 位整数。我们使用 _mm_loadu_si128_mm_reduce_add_epi32 untuk memuatkan dan masing-masing Jumlahkan 4 integer.

Ujian prestasi

Kami menggunakan kod berikut untuk ujian prestasi:

#include <chrono>
#include <random>

int main() {
  int arr[1000000];
  std::mt19937 rng(1234);
  std::generate(arr, arr + 1000000, [&]() { return rng(); });

  auto start = std::chrono::high_resolution_clock::now();
  int result = sum(arr, 1000000);
  auto end = std::chrono::high_resolution_clock::now();

  std::cout << "Non-SIMD time: " << std::chrono::duration<double>(end - start).count() << " seconds" << std::endl;

  start = std::chrono::high_resolution_clock::now();
  result = sum_simd(arr, 1000000);
  end = std::chrono::high_resolution_clock::now();

  std::cout << "SIMD time: " << std::chrono::duration<double>(end - start).count() << " seconds" << std::endl;
}

Pada pemproses Intel i7-8700K, fungsi versi bukan SIMD mengambil masa kira-kira 0.028 saat, manakala fungsi versi SIMD mengambil masa hanya 0.007 saat peningkatan kira-kira 4 kali.

Kesimpulan

Teknologi SIMD boleh mengoptimumkan fungsi C++ dengan berkesan yang mengendalikan sejumlah besar data. Dengan mengvektorkan gelung, kami boleh memanfaatkan unit pemprosesan selari untuk meningkatkan prestasi fungsi dengan ketara.

Atas ialah kandungan terperinci Aplikasi teknologi SIMD dalam pengoptimuman prestasi fungsi C++. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn