搜尋
首頁後端開發C++我們如何在 AVX2 中為 Intel 和 AMD 處理器高效實現 log2(__m256d)?

How Can We Efficiently Implement log2(__m256d) in AVX2 for Both Intel and AMD Processors?

AVX2 中log2(__m256d) 的高效率實作

SVML 的__m256d _mm256_log2_pd (__m256d a處理器) 僅限於「Intel」較慢。存在替代實現,但它們通常專注於 SSE 而不是 AVX2。本次討論旨在為四個雙精度數向量提供 log2() 的高效實現,該實現與各種編譯器兼容,並且在 AMD 和 Intel 處理器上均表現良好。

傳統策略

通常的方法利用公式log2(a*b) = log2(a) log2(b),此公式可簡化為指數log2(尾數) 對於雙數。尾數的範圍有限,為 1.0 到 2.0,因此適合透過多項式逼近來獲得 log2(尾數)。

準確度和精確度

所需的準確度和投入的範圍影響實作。 Agner Fog 的 VCL 旨在使用誤差避免技術實現高精度。但是,為了更快地近似float log(),請考慮JRF 的多項式實現(可在此處找到:http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials .html)。

VCL 演算法

VCL 的log float 和double 函數遵循兩部分方法:

  1. 提取指數和尾數:指數將轉換回浮點數,並透過檢查小於的值來調整尾數SQRT2*0.5。接下來從尾數減去 1.0。
  2. 多項式近似: 將多項式近似應用於調整後的尾數,以計算 x=1.0 附近的 log(x)。對於雙精度,VCL 使用兩個 5 階多項式的比率。

透過將指數加到多項式近似值來獲得最終結果。 VCL 包含額外的步驟來最小化舍入誤差。

替代多項式近似

為了提高準確性,您可以直接使用 VCL。然而,為了更快實現 float 的近似 log2(),請考慮使用 FMA 將 JRF 的 SSE2 函數移植到 AVX2。

避免捨入誤差

VCL 使用各種技術來減少捨入誤差。其中包括:

  • 將 ln2 拆分為更小的常數(ln2_lo 和 ln2_hi)
  • 加行 res = nmul_add(x2, 0.5, x);多項式評估

去除不必要的步驟

如果已知您的值是有限且正的,則可以透過註解掉以下檢查來顯著提高效能下溢、溢位或非正規。

進一步正在閱讀

  • [具有極小極大誤差的多項式逼近](http://gallium.inria.fr/blog/fast-向量化-math-approx/)
  • [使用位的快速近似對數操縱](http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html)

以上是我們如何在 AVX2 中為 Intel 和 AMD 處理器高效實現 log2(__m256d)?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
C社區:資源,支持和發展C社區:資源,支持和發展Apr 13, 2025 am 12:01 AM

C 學習者和開發者可以從StackOverflow、Reddit的r/cpp社區、Coursera和edX的課程、GitHub上的開源項目、專業諮詢服務以及CppCon等會議中獲得資源和支持。 1.StackOverflow提供技術問題的解答;2.Reddit的r/cpp社區分享最新資訊;3.Coursera和edX提供正式的C 課程;4.GitHub上的開源項目如LLVM和Boost提陞技能;5.專業諮詢服務如JetBrains和Perforce提供技術支持;6.CppCon等會議有助於職業

c#vs. c:每種語言都擅長c#vs. c:每種語言都擅長Apr 12, 2025 am 12:08 AM

C#適合需要高開發效率和跨平台支持的項目,而C 適用於需要高性能和底層控制的應用。 1)C#簡化開發,提供垃圾回收和豐富類庫,適合企業級應用。 2)C 允許直接內存操作,適用於遊戲開發和高性能計算。

繼續使用C:耐力的原因繼續使用C:耐力的原因Apr 11, 2025 am 12:02 AM

C 持續使用的理由包括其高性能、廣泛應用和不斷演進的特性。 1)高效性能:通過直接操作內存和硬件,C 在系統編程和高性能計算中表現出色。 2)廣泛應用:在遊戲開發、嵌入式系統等領域大放異彩。 3)不斷演進:自1983年發布以來,C 持續增加新特性,保持其競爭力。

C和XML的未來:新興趨勢和技術C和XML的未來:新興趨勢和技術Apr 10, 2025 am 09:28 AM

C 和XML的未來發展趨勢分別為:1)C 將通過C 20和C 23標準引入模塊、概念和協程等新特性,提升編程效率和安全性;2)XML將繼續在數據交換和配置文件中佔據重要地位,但會面臨JSON和YAML的挑戰,並朝著更簡潔和易解析的方向發展,如XMLSchema1.1和XPath3.1的改進。

現代C設計模式:構建可擴展和可維護的軟件現代C設計模式:構建可擴展和可維護的軟件Apr 09, 2025 am 12:06 AM

現代C 設計模式利用C 11及以後的新特性實現,幫助構建更靈活、高效的軟件。 1)使用lambda表達式和std::function簡化觀察者模式。 2)通過移動語義和完美轉發優化性能。 3)智能指針確保類型安全和資源管理。

C多線程和並發:掌握並行編程C多線程和並發:掌握並行編程Apr 08, 2025 am 12:10 AM

C 多線程和並發編程的核心概念包括線程的創建與管理、同步與互斥、條件變量、線程池、異步編程、常見錯誤與調試技巧以及性能優化與最佳實踐。 1)創建線程使用std::thread類,示例展示瞭如何創建並等待線程完成。 2)同步與互斥使用std::mutex和std::lock_guard保護共享資源,避免數據競爭。 3)條件變量通過std::condition_variable實現線程間的通信和同步。 4)線程池示例展示瞭如何使用ThreadPool類並行處理任務,提高效率。 5)異步編程使用std::as

C深度潛水:掌握記憶管理,指針和模板C深度潛水:掌握記憶管理,指針和模板Apr 07, 2025 am 12:11 AM

C 的內存管理、指針和模板是核心特性。 1.內存管理通過new和delete手動分配和釋放內存,需注意堆和棧的區別。 2.指針允許直接操作內存地址,使用需謹慎,智能指針可簡化管理。 3.模板實現泛型編程,提高代碼重用性和靈活性,需理解類型推導和特化。

C和系統編程:低級控制和硬件交互C和系統編程:低級控制和硬件交互Apr 06, 2025 am 12:06 AM

C 適合系統編程和硬件交互,因為它提供了接近硬件的控制能力和麵向對象編程的強大特性。 1)C 通過指針、內存管理和位操作等低級特性,實現高效的系統級操作。 2)硬件交互通過設備驅動程序實現,C 可以編寫這些驅動程序,處理與硬件設備的通信。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。