


Menggantikan pembilang gelung 32-bit dengan 64-bit memperkenalkan penyelewengan prestasi gila dengan _mm_popcnt_u64 pada CPU Intel
Ringkasan Masalah
Prestasi penanda aras popcount berubah secara drastik apabila gelung pembolehubah balas telah ditukar daripada 32-bit tidak ditandatangani kepada 64-bit tidak ditandatangani, walaupun perubahan itu tidak kelihatan menjejaskan operasi asas gelung.
Soalan
- Mengapa terdapat perbezaan prestasi sedemikian antara menggunakan pembilang gelung 32-bit dan 64-bit?
- Bagaimana boleh menggantikan saiz penimbal tidak tetap dengan nilai malar membawa kepada kod lebih perlahan?
- Bagaimanakah penambahan kata kunci 'statik' pada pembolehubah saiz penimbal menjadikan gelung 64-bit lebih cepat?
Jawapan
1. Perbezaan prestasi adalah disebabkan kebergantungan data palsu dalam arahan popcnt pada CPU Intel.
Apabila pembilang gelung adalah 32-bit, arahan popcnt dalam setiap lelaran gelung dilaksanakan secara bebas, membenarkan selari perlaksanaan. Walau bagaimanapun, apabila pembilang gelung adalah 64-bit, pergantungan data palsu diperkenalkan antara arahan popcnt, menjadikannya mustahil untuk mereka melaksanakan secara selari. Kebergantungan ini disebabkan oleh daftar destinasi untuk arahan popcnt yang digunakan semula untuk lelaran seterusnya, mewujudkan kebergantungan buatan yang mengehadkan prestasi.
2. Menggantikan saiz penimbal tidak tetap dengan nilai malar boleh memperlahankan kod kerana ia menghalang pengkompil daripada melaksanakan beberapa pengoptimuman.
Dengan saiz penimbal tetap, pengkompil mengetahui saiz penimbal yang tepat pada masa penyusunan, yang boleh membolehkan corak capaian memori dan penjadualan arahan yang lebih cekap. Walau bagaimanapun, dengan saiz penimbal tidak tetap, pengkompil perlu mengambil senario terburuk, yang boleh membawa kepada kod yang kurang dioptimumkan.
3. Menambah kata kunci 'statik' pada pembolehubah saiz penimbal menjadikan gelung 64-bit lebih pantas kerana ia menjadikan saiz penimbal pemalar masa kompilasi, membolehkan pengkompil melakukan pengoptimuman tambahan.
Dengan membuat saiz penimbal pemalar masa kompilasi, pengkompil boleh lebih agresif mengoptimumkan corak capaian memori dan penjadualan arahan, menghasilkan lebih cepat kod.
Pelajaran yang Diperoleh
Malah perubahan kecil dalam gelung boleh memberi kesan yang ketara pada prestasi disebabkan kebergantungan yang tidak dijangka atau pengoptimuman pengkompil. Adalah penting untuk memahami kebergantungan ini dan cara ia mempengaruhi prestasi untuk menulis kod yang cekap.
Atas ialah kandungan terperinci Mengapa Menukar Pembilang Gelung daripada 32-bit kepada 64-bit Memberi Impak Secara Dramatik Prestasi _mm_popcnt_u64 pada CPU Intel?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

C Alasan penggunaan berterusan termasuk prestasi tinggi, aplikasi luas dan ciri -ciri yang berkembang. 1) Prestasi kecekapan tinggi: C melaksanakan dengan baik dalam pengaturcaraan sistem dan pengkomputeran berprestasi tinggi dengan terus memanipulasi memori dan perkakasan. 2) Digunakan secara meluas: bersinar dalam bidang pembangunan permainan, sistem tertanam, dan lain -lain. 3) Evolusi berterusan: Sejak pembebasannya pada tahun 1983, C terus menambah ciri -ciri baru untuk mengekalkan daya saingnya.

Trend pembangunan masa depan C dan XML adalah: 1) C akan memperkenalkan ciri -ciri baru seperti modul, konsep dan coroutin melalui piawaian C 20 dan C 23 untuk meningkatkan kecekapan dan keselamatan pengaturcaraan; 2) XML akan terus menduduki kedudukan penting dalam pertukaran data dan fail konfigurasi, tetapi akan menghadapi cabaran JSON dan YAML, dan akan berkembang dengan lebih ringkas dan mudah untuk menghuraikan arahan, seperti penambahbaikan XMLSChema1.1 dan XPath3.1.

Model reka bentuk C moden menggunakan ciri -ciri baru C 11 dan seterusnya untuk membantu membina perisian yang lebih fleksibel dan cekap. 1) Gunakan Ekspresi Lambda dan STD :: Fungsi untuk memudahkan corak pemerhati. 2) Mengoptimumkan prestasi melalui semantik mudah alih dan pemajuan sempurna. 3) Penunjuk pintar memastikan jenis keselamatan dan pengurusan sumber.

C Konsep teras pengaturcaraan multithreading dan serentak termasuk penciptaan dan pengurusan thread, penyegerakan dan pengecualian bersama, pembolehubah bersyarat, penyatuan thread, pengaturcaraan tak segerak, kesilapan umum dan teknik debugging, dan pengoptimuman prestasi dan amalan terbaik. 1) Buat benang menggunakan kelas STD :: Thread. Contohnya menunjukkan cara membuat dan menunggu benang selesai. 2) Segerakkan dan pengecualian bersama untuk menggunakan std :: mutex dan std :: lock_guard untuk melindungi sumber bersama dan mengelakkan persaingan data. 3) Pemboleh ubah keadaan menyedari komunikasi dan penyegerakan antara benang melalui std :: condition_variable. 4) Contoh kolam benang menunjukkan cara menggunakan kelas threadpool untuk memproses tugas selari untuk meningkatkan kecekapan. 5) Pengaturcaraan Asynchronous menggunakan std :: as

Pengurusan memori C, petunjuk dan templat adalah ciri teras. 1. Pengurusan memori secara manual memperuntukkan dan melepaskan memori melalui baru dan memadam, dan memberi perhatian kepada perbezaan antara timbunan dan timbunan. 2. Pointers membenarkan operasi langsung alamat memori, dan gunakannya dengan berhati -hati. Penunjuk pintar dapat memudahkan pengurusan. 3.

C sesuai untuk pengaturcaraan sistem dan interaksi perkakasan kerana ia menyediakan keupayaan kawalan dekat dengan perkakasan dan ciri-ciri kuat pengaturcaraan berorientasikan objek. 1) C melalui ciri-ciri peringkat rendah seperti penunjuk, pengurusan memori dan operasi bit, operasi peringkat sistem yang cekap dapat dicapai. 2) Interaksi perkakasan dilaksanakan melalui pemacu peranti, dan C boleh menulis pemandu ini untuk mengendalikan komunikasi dengan peranti perkakasan.

C sesuai untuk membina sistem permainan dan simulasi berprestasi tinggi kerana ia menyediakan dekat dengan kawalan perkakasan dan prestasi yang cekap. 1) Pengurusan memori: Kawalan manual mengurangkan pemecahan dan meningkatkan prestasi. 2) Pengoptimuman masa kompilasi: Fungsi inline dan pengembangan gelung meningkatkan kelajuan berjalan. 3) Operasi peringkat rendah: Akses langsung ke perkakasan, mengoptimumkan grafik dan pengkomputeran fizikal.

Kebenaran mengenai masalah operasi fail: Pembukaan fail gagal: Kebenaran yang tidak mencukupi, laluan yang salah, dan fail yang diduduki. Penulisan data gagal: Penampan penuh, fail tidak boleh ditulis, dan ruang cakera tidak mencukupi. Soalan Lazim Lain: Traversal fail perlahan, pengekodan fail teks yang salah, dan kesilapan bacaan fail binari.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Dreamweaver CS6
Alat pembangunan web visual

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod