Pandas Apply 與 NumPy Vectorize：哪個建立新欄位更快？-Python教學-PHP中文網

首頁

後端開發

Python教學

Pandas Apply 與 NumPy Vectorize：哪個建立新欄位更快？

Linda Hamilton

Oct 27, 2024 am 08:28 AM

Pandas Apply vs. NumPy Vectorize: Which is Faster for Creating New Columns?

Pandas Apply 與NumPy Vectorize 在列建立中的效能

簡介

效能比較

廣泛的基準測試顯示 np.vectorize( ）始終明顯優於 df.apply()。例如，在具有 100 萬行的資料集中，np.vectorize() 在 2016 年 MacBook Pro 上速度提高了 25 倍。隨著資料集大小的增加，這種差異變得更加明顯。

底層機制

df.apply() 透過一系列 Python 層級的循環進行操作，這引入了重要的開銷。每次迭代都涉及建立一個新的 Pandas Series 物件、呼叫函數並將結果附加到新列。相較之下，np.vectorize() 利用 NumPy 的廣播規則來評估陣列上的函數。這種方法繞過了 Python 循環的開銷，並利用了優化的 C 程式碼，從而加快了執行速度。

真正的向量化

對於真正的向量化計算，df.apply 都不是() 和 np.vectorize() 都不是最佳的。相反，本機 NumPy 操作提供了卓越的性能。例如，向量化的 diverge() 比 df.apply() 或 np.vectorize() 顯示出顯著的效能優勢。

使用Numba 進行JIT 編譯

For為了獲得更高的效率，可以使用Numba 的@njit 裝飾器將divide() 函數編譯為高效的C 級代碼。這種方法進一步減少了執行時間，以微秒而不是秒為單位產生結果。

結論

雖然df.apply() 提供了一個方便的介面來將函數應用於資料幀，對於大型資料集，其效能限制變得顯而易見。對於效能關鍵型應用程序，NumPy 的 np.vectorize() 及其 Numba 中 JIT 編譯的對應項為建立新列提供了卓越的速度。另外值得注意的是，使用本機 NumPy 函數的真正向量化操作是大規模資料操作的最有效選擇。

以上是Pandas Apply 與 NumPy Vectorize：哪個建立新欄位更快？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Numpy數組與使用數組模塊創建的數組有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模塊與Python中的數組有何關係？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

在Python的上下文中定義'數組”和'列表”。Apr 24, 2025 pm 03:41 PM

Inpython，一個“列表” isaversatile，mutableSequencethatCanholdMixedDatateTypes，而“陣列” isamorememory-sepersequeSequeSequeSequeSequeRingequiringElements.1）列表

Python列表是可變還是不變的？那Python陣列呢？Apr 24, 2025 pm 03:37 PM

pythonlistsandArraysareBothable.1）列表Sareflexibleandsupportereceneousdatabutarelessmory-Memory-Empefficity.2）ArraysareMoremoremoremoreMemoremorememorememorememoremorememogeneSdatabutlesserversEversementime，defteringcorcttypecrecttypececeDepeceDyusagetoagetoavoavoiDerrors。