cari
Rumahpembangunan bahagian belakangC++Bagaimanakah Kami Boleh Melaksanakan log2(__m256d) dengan Cekap dalam AVX2 untuk Kedua-dua Pemproses Intel dan AMD?

How Can We Efficiently Implement log2(__m256d) in AVX2 for Both Intel and AMD Processors?

Pelaksanaan log2(__m256d) yang Cekap dalam AVX2

SVML __m256d _mm256_log2_pd (__m256d a) terhad kepada pengkompil Intel pada AMD dan dilaporkan perlahan. Pelaksanaan alternatif wujud, tetapi ia sering menumpukan pada SSE dan bukannya AVX2. Perbincangan ini bertujuan untuk menyediakan pelaksanaan log2() yang cekap untuk vektor empat nombor berganda yang serasi dengan pelbagai penyusun dan berfungsi dengan baik pada kedua-dua pemproses AMD dan Intel.

Strategi Tradisional

Pendekatan biasa memanfaatkan formula log2(a*b) = log2(a) log2(b), yang memudahkan kepada eksponen log2(mantissa) untuk nombor berganda. Mantissa mempunyai julat terhad 1.0 hingga 2.0, menjadikannya sesuai untuk anggaran polinomial untuk mendapatkan log2(mantissa).

Ketepatan dan Ketepatan

Ketepatan dan yang diingini julat input mempengaruhi pelaksanaan. VCL Agner Fog bertujuan untuk ketepatan tinggi menggunakan teknik mengelakkan ralat. Walau bagaimanapun, untuk log apungan anggaran yang lebih pantas(), pertimbangkan pelaksanaan polinomial JRF (didapati di sini: http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials.html).

Algoritma VCL

Fungsi log dan berganda VCL mengikuti a pendekatan dua bahagian:

  1. Eksponen eksponen dan mantissa: Eksponen ditukar kembali kepada apungan, dan mantissa dilaraskan dengan semakan untuk nilai kurang daripada SQRT2*0.5. Ini diikuti dengan penolakan 1.0 daripada mantissa.
  2. Penghampiran polinomial: Penghampiran polinomial digunakan pada mantissa terlaras untuk mengira log(x) sekitar x=1.0. Untuk ketepatan berganda, VCL menggunakan nisbah dua polinomial tertib ke-5.

Keputusan akhir diperoleh dengan menambahkan eksponen pada penghampiran polinomial. VCL termasuk langkah tambahan untuk meminimumkan ralat pembundaran.

Penghampiran Polinomial Alternatif

Untuk meningkatkan ketepatan, anda boleh menggunakan VCL secara terus. Walau bagaimanapun, untuk pelaksanaan log2() anggaran yang lebih pantas untuk apungan, pertimbangkan untuk mengalihkan fungsi SSE2 JRF ke AVX2 dengan FMA.

Mengelakkan Ralat Pembundaran

VCL menggunakan pelbagai teknik untuk mengurangkan ralat pembundaran. Ini termasuk:

  • Memisahkan ln2 kepada pemalar yang lebih kecil (ln2_lo dan ln2_hi)
  • Menambah garis res = nmul_add(x2, 0.5, x); kepada penilaian polinomial

Melucutkan Langkah yang Tidak Perlu

Jika nilai anda diketahui terhingga dan positif, anda boleh meningkatkan prestasi dengan ketara dengan mengulas semakan untuk aliran bawah, limpahan atau denormal.

Selanjutnya Membaca

  • [Penghampiran polinomial dengan ralat minimaks](http://gallium.inria.fr/blog/fast-vectorizable-math-approx/)
  • [Logaritma anggaran cepat menggunakan bit manipulasi](http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html)

Atas ialah kandungan terperinci Bagaimanakah Kami Boleh Melaksanakan log2(__m256d) dengan Cekap dalam AVX2 untuk Kedua-dua Pemproses Intel dan AMD?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Komuniti C: Sumber, Sokongan, dan PembangunanKomuniti C: Sumber, Sokongan, dan PembangunanApr 13, 2025 am 12:01 AM

C Pelajar dan pemaju boleh mendapatkan sumber dan sokongan dari StackOverflow, Komuniti R/CPP Reddit, Coursera dan EDX, Projek Sumber Terbuka di GitHub, Perkhidmatan Perundingan Profesional, dan CPPCON. 1. StackOverflow memberikan jawapan kepada soalan teknikal; 2. Komuniti R/CPP Reddit berkongsi berita terkini; 3. Coursera dan EDX menyediakan kursus f rasmi; 4. Projek sumber terbuka pada GitHub seperti LLVM dan meningkatkan kemahiran meningkatkan; 5. Perkhidmatan perundingan profesional seperti jetbrains dan perforce menyediakan sokongan teknikal; 6. CPPCON dan persidangan lain membantu kerjaya

C# vs C: di mana setiap bahasa cemerlangC# vs C: di mana setiap bahasa cemerlangApr 12, 2025 am 12:08 AM

C# sesuai untuk projek yang memerlukan kecekapan pembangunan tinggi dan sokongan silang platform, manakala C sesuai untuk aplikasi yang memerlukan prestasi tinggi dan kawalan asas. 1) C# Memudahkan pembangunan, menyediakan pengumpulan sampah dan perpustakaan kelas yang kaya, sesuai untuk aplikasi peringkat perusahaan. 2) C membolehkan operasi memori langsung, sesuai untuk pembangunan permainan dan pengkomputeran berprestasi tinggi.

Penggunaan berterusan C: Sebab -sebab ketahanannyaPenggunaan berterusan C: Sebab -sebab ketahanannyaApr 11, 2025 am 12:02 AM

C Alasan penggunaan berterusan termasuk prestasi tinggi, aplikasi luas dan ciri -ciri yang berkembang. 1) Prestasi kecekapan tinggi: C melaksanakan dengan baik dalam pengaturcaraan sistem dan pengkomputeran berprestasi tinggi dengan terus memanipulasi memori dan perkakasan. 2) Digunakan secara meluas: bersinar dalam bidang pembangunan permainan, sistem tertanam, dan lain -lain. 3) Evolusi berterusan: Sejak pembebasannya pada tahun 1983, C terus menambah ciri -ciri baru untuk mengekalkan daya saingnya.

Masa Depan C dan XML: Trend dan Teknologi MunculMasa Depan C dan XML: Trend dan Teknologi MunculApr 10, 2025 am 09:28 AM

Trend pembangunan masa depan C dan XML adalah: 1) C akan memperkenalkan ciri -ciri baru seperti modul, konsep dan coroutin melalui piawaian C 20 dan C 23 untuk meningkatkan kecekapan dan keselamatan pengaturcaraan; 2) XML akan terus menduduki kedudukan penting dalam pertukaran data dan fail konfigurasi, tetapi akan menghadapi cabaran JSON dan YAML, dan akan berkembang dengan lebih ringkas dan mudah untuk menghuraikan arahan, seperti penambahbaikan XMLSChema1.1 dan XPath3.1.

Corak Reka Bentuk C Moden: Membina perisian berskala dan boleh dipeliharaCorak Reka Bentuk C Moden: Membina perisian berskala dan boleh dipeliharaApr 09, 2025 am 12:06 AM

Model reka bentuk C moden menggunakan ciri -ciri baru C 11 dan seterusnya untuk membantu membina perisian yang lebih fleksibel dan cekap. 1) Gunakan Ekspresi Lambda dan STD :: Fungsi untuk memudahkan corak pemerhati. 2) Mengoptimumkan prestasi melalui semantik mudah alih dan pemajuan sempurna. 3) Penunjuk pintar memastikan jenis keselamatan dan pengurusan sumber.

C multithreading and concurrency: Menguasai pengaturcaraan selariC multithreading and concurrency: Menguasai pengaturcaraan selariApr 08, 2025 am 12:10 AM

C Konsep teras pengaturcaraan multithreading dan serentak termasuk penciptaan dan pengurusan thread, penyegerakan dan pengecualian bersama, pembolehubah bersyarat, penyatuan thread, pengaturcaraan tak segerak, kesilapan umum dan teknik debugging, dan pengoptimuman prestasi dan amalan terbaik. 1) Buat benang menggunakan kelas STD :: Thread. Contohnya menunjukkan cara membuat dan menunggu benang selesai. 2) Segerakkan dan pengecualian bersama untuk menggunakan std :: mutex dan std :: lock_guard untuk melindungi sumber bersama dan mengelakkan persaingan data. 3) Pemboleh ubah keadaan menyedari komunikasi dan penyegerakan antara benang melalui std :: condition_variable. 4) Contoh kolam benang menunjukkan cara menggunakan kelas threadpool untuk memproses tugas selari untuk meningkatkan kecekapan. 5) Pengaturcaraan Asynchronous menggunakan std :: as

C Dive Deep: Menguasai Pengurusan Memori, Poin, dan TemplatC Dive Deep: Menguasai Pengurusan Memori, Poin, dan TemplatApr 07, 2025 am 12:11 AM

Pengurusan memori C, petunjuk dan templat adalah ciri teras. 1. Pengurusan memori secara manual memperuntukkan dan melepaskan memori melalui baru dan memadam, dan memberi perhatian kepada perbezaan antara timbunan dan timbunan. 2. Pointers membenarkan operasi langsung alamat memori, dan gunakannya dengan berhati -hati. Penunjuk pintar dapat memudahkan pengurusan. 3.

C dan Pengaturcaraan Sistem: Kawalan Rendah dan Interaksi PerkakasanC dan Pengaturcaraan Sistem: Kawalan Rendah dan Interaksi PerkakasanApr 06, 2025 am 12:06 AM

C sesuai untuk pengaturcaraan sistem dan interaksi perkakasan kerana ia menyediakan keupayaan kawalan dekat dengan perkakasan dan ciri-ciri kuat pengaturcaraan berorientasikan objek. 1) C melalui ciri-ciri peringkat rendah seperti penunjuk, pengurusan memori dan operasi bit, operasi peringkat sistem yang cekap dapat dicapai. 2) Interaksi perkakasan dilaksanakan melalui pemacu peranti, dan C boleh menulis pemandu ini untuk mengendalikan komunikasi dengan peranti perkakasan.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan