搜尋
首頁後端開發C++我們如何在 AVX2 中為 Intel 和 AMD 處理器高效實現 log2(__m256d)?

How Can We Efficiently Implement log2(__m256d) in AVX2 for Both Intel and AMD Processors?

AVX2 中log2(__m256d) 的高效率實作

SVML 的__m256d _mm256_log2_pd (__m256d a處理器) 僅限於「Intel」較慢。存在替代實現,但它們通常專注於 SSE 而不是 AVX2。本次討論旨在為四個雙精度數向量提供 log2() 的高效實現,該實現與各種編譯器兼容,並且在 AMD 和 Intel 處理器上均表現良好。

傳統策略

通常的方法利用公式log2(a*b) = log2(a) log2(b),此公式可簡化為指數log2(尾數) 對於雙數。尾數的範圍有限,為 1.0 到 2.0,因此適合透過多項式逼近來獲得 log2(尾數)。

準確度和精確度

所需的準確度和投入的範圍影響實作。 Agner Fog 的 VCL 旨在使用誤差避免技術實現高精度。但是,為了更快地近似float log(),請考慮JRF 的多項式實現(可在此處找到:http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials .html)。

VCL 演算法

VCL 的log float 和double 函數遵循兩部分方法:

  1. 提取指數和尾數:指數將轉換回浮點數,並透過檢查小於的值來調整尾數SQRT2*0.5。接下來從尾數減去 1.0。
  2. 多項式近似: 將多項式近似應用於調整後的尾數,以計算 x=1.0 附近的 log(x)。對於雙精度,VCL 使用兩個 5 階多項式的比率。

透過將指數加到多項式近似值來獲得最終結果。 VCL 包含額外的步驟來最小化舍入誤差。

替代多項式近似

為了提高準確性,您可以直接使用 VCL。然而,為了更快實現 float 的近似 log2(),請考慮使用 FMA 將 JRF 的 SSE2 函數移植到 AVX2。

避免捨入誤差

VCL 使用各種技術來減少捨入誤差。其中包括:

  • 將 ln2 拆分為更小的常數(ln2_lo 和 ln2_hi)
  • 加行 res = nmul_add(x2, 0.5, x);多項式評估

去除不必要的步驟

如果已知您的值是有限且正的,則可以透過註解掉以下檢查來顯著提高效能下溢、溢位或非正規。

進一步正在閱讀

  • [具有極小極大誤差的多項式逼近](http://gallium.inria.fr/blog/fast-向量化-math-approx/)
  • [使用位的快速近似對數操縱](http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html)

以上是我們如何在 AVX2 中為 Intel 和 AMD 處理器高效實現 log2(__m256d)?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
揭穿神話:C真的是一種死語嗎?揭穿神話:C真的是一種死語嗎?May 05, 2025 am 12:11 AM

C 沒有死,反而在許多關鍵領域蓬勃發展:1)遊戲開發,2)系統編程,3)高性能計算,4)瀏覽器和網絡應用,C 依然是主流選擇,展現了其強大的生命力和應用場景。

C#vs. C:編程語言的比較分析C#vs. C:編程語言的比較分析May 04, 2025 am 12:03 AM

C#和C 的主要區別在於語法、內存管理和性能:1)C#語法現代,支持lambda和LINQ,C 保留C特性並支持模板。 2)C#自動內存管理,C 需要手動管理。 3)C 性能優於C#,但C#性能也在優化中。

用C構建XML應用程序:實例用C構建XML應用程序:實例May 03, 2025 am 12:16 AM

在C 中處理XML數據可以使用TinyXML、Pugixml或libxml2庫。 1)解析XML文件:使用DOM或SAX方法,DOM適合小文件,SAX適合大文件。 2)生成XML文件:將數據結構轉換為XML格式並寫入文件。通過這些步驟,可以有效地管理和操作XML數據。

C中的XML:處理複雜的數據結構C中的XML:處理複雜的數據結構May 02, 2025 am 12:04 AM

在C 中處理XML數據結構可以使用TinyXML或pugixml庫。 1)使用pugixml庫解析和生成XML文件。 2)處理複雜的嵌套XML元素,如書籍信息。 3)優化XML處理代碼,建議使用高效庫和流式解析。通過這些步驟,可以高效處理XML數據。

C和性能:它仍然主導C和性能:它仍然主導May 01, 2025 am 12:14 AM

C 在性能優化方面仍然佔據主導地位,因為其低級內存管理和高效執行能力使其在遊戲開發、金融交易系統和嵌入式系統中不可或缺。具體表現為:1)在遊戲開發中,C 的低級內存管理和高效執行能力使得它成為遊戲引擎開發的首選語言;2)在金融交易系統中,C 的性能優勢確保了極低的延遲和高吞吐量;3)在嵌入式系統中,C 的低級內存管理和高效執行能力使得它在資源有限的環境中非常受歡迎。

C XML框架:為您選擇合適的一個C XML框架:為您選擇合適的一個Apr 30, 2025 am 12:01 AM

C XML框架的選擇應基於項目需求。 1)TinyXML適合資源受限環境,2)pugixml適用於高性能需求,3)Xerces-C 支持複雜的XMLSchema驗證,選擇時需考慮性能、易用性和許可證。

C#vs. C:為您的項目選擇正確的語言C#vs. C:為您的項目選擇正確的語言Apr 29, 2025 am 12:51 AM

C#适合需要开发效率和类型安全的项目,而C 适合需要高性能和硬件控制的项目。1)C#提供垃圾回收和LINQ,适用于企业应用和Windows开发。2)C 以高性能和底层控制著称,广泛用于游戏和系统编程。

c  怎麼進行代碼優化c 怎麼進行代碼優化Apr 28, 2025 pm 10:27 PM

C 代碼優化可以通過以下策略實現:1.手動管理內存以優化使用;2.編寫符合編譯器優化規則的代碼;3.選擇合適的算法和數據結構;4.使用內聯函數減少調用開銷;5.應用模板元編程在編譯時優化;6.避免不必要的拷貝,使用移動語義和引用參數;7.正確使用const幫助編譯器優化;8.選擇合適的數據結構,如std::vector。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境