Rumah >pembangunan bahagian belakang >Golang >Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?
Dalam penanda aras akses tatasusunan ini (berbanding dengan GCC), Go mengalami kehilangan prestasi sebanyak 4x. Apakah yang menyebabkan ini? Isu ini melibatkan banyak aspek seperti mekanisme masa jalan dan pengoptimuman pengkompil bagi bahasa Go. Pertama sekali, bahasa Go menggunakan mekanisme semakan sempadan apabila mengakses tatasusunan, iaitu, semakan sempadan dilakukan setiap kali elemen tatasusunan diakses, yang akan menyebabkan kehilangan prestasi tertentu. Kedua, pengkompil bahasa Go agak lemah dalam pengoptimuman dan tidak dapat mengoptimumkan akses tatasusunan dengan baik. Selain itu, mekanisme kutipan sampah bahasa Go juga akan memberi kesan tertentu terhadap prestasi. Jika digabungkan, faktor ini digabungkan menyebabkan Go mengalami kehilangan prestasi 4x ganda dalam penanda aras akses tatasusunan.
Saya menulis penanda aras mikro ini untuk lebih memahami ciri prestasi go supaya saya boleh membuat pilihan termaklum tentang masa untuk menggunakannya.
Daripada perspektif overhed prestasi, saya rasa ini akan menjadi senario yang sesuai untuk pergi:
Namun begitu, saya melihat perbezaan kelajuan 4x berbanding gcc -o3
pada amd64. kenapa begitu?
(Gunakan pemasaan shell. Ia mengambil masa beberapa saat setiap kali, jadi permulaan boleh diabaikan)
package main import "fmt" func main() { fmt.println("started"); var n int32 = 1024 * 32 a := make([]int32, n, n) b := make([]int32, n, n) var it, i, j int32 for i = 0; i < n; i++ { a[i] = i b[i] = -i } var r int32 = 10 var sum int32 = 0 for it = 0; it < r; it++ { for i = 0; i < n; i++ { for j = 0; j < n; j++ { sum += (a[i] + b[j]) * (it + 1) } } } fmt.printf("n = %d, r = %d, sum = %d\n", n, r, sum) }
c Versi:
#include <stdio.h> #include <stdlib.h> int main() { printf("started\n"); int32_t n = 1024 * 32; int32_t* a = malloc(sizeof(int32_t) * n); int32_t* b = malloc(sizeof(int32_t) * n); for(int32_t i = 0; i < n; ++i) { a[i] = i; b[i] = -i; } int32_t r = 10; int32_t sum = 0; for(int32_t it = 0; it < r; ++it) { for(int32_t i = 0; i < n; ++i) { for(int32_t j = 0; j < n; ++j) { sum += (a[i] + b[j]) * (it + 1); } } } printf("n = %d, r = %d, sum = %d\n", n, r, sum); free(a); free(b); }
Kemas kini:
range
boleh meningkatkan kelajuan pergi sebanyak 2 kali ganda. -march=native
将 c 速度提高了 2 倍。 (并且-mno-sse
给出编译错误,显然与-o3
tidak serasi)range
) Lihat pada output pemasang program C dan program Go Sekurang-kurangnya pada versi Go dan GCC yang saya gunakan (masing-masing 1.19.6 dan 12.2.0), perbezaan yang paling langsung dan jelas ialah GCC. Vectorize program C secara automatik, yang pengkompil Go nampaknya tidak dapat lakukan.
Ini juga menerangkan dengan baik mengapa anda akan melihat peningkatan prestasi empat kali ganda, memandangkan GCC menggunakan SSE dan bukannya AVX apabila tidak menyasarkan seni bina tertentu, yang bermaksud arahan skalar 32-bit adalah empat kali lebih lebar untuk beroperasi. Malah, menambah -march=native
memberi saya peningkatan prestasi 2x ganda kerana ia menghasilkan kod AVX keluaran GCC pada CPU saya.
Saya tidak cukup mahir dengan Go untuk memberitahu anda jika pengkompil Go secara intrinsik tidak dapat autovektor, atau jika program tertentu ini sahaja yang menyebabkannya pepijat atas sebab tertentu, tetapi itu nampaknya puncanya
Atas ialah kandungan terperinci Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!