Pandas Apply 与 NumPy Vectorize：哪个创建新列更快？-Python教程-PHP中文网

首页

后端开发

Python教程

Pandas Apply 与 NumPy Vectorize：哪个创建新列更快？

Linda Hamilton

Oct 27, 2024 am 08:28 AM

Pandas Apply vs. NumPy Vectorize: Which is Faster for Creating New Columns?

Pandas Apply 与 NumPy Vectorize 在列创建中的性能

简介

而 Pandas ' df.apply() 是一个用于在数据帧上操作的多功能函数，它的性能可能是一个问题，特别是对于大型数据集。 NumPy 的 np.vectorize() 提供了一种潜在的替代方案，用于根据现有列创建新列。本文研究了两种方法之间的速度差异，解释了为什么 np.vectorize() 通常更快。

性能比较

广泛的基准测试表明 np.vectorize( ）始终明显优于 df.apply()。例如，在具有 100 万行的数据集中，np.vectorize() 在 2016 款 MacBook Pro 上速度提高了 25 倍。随着数据集大小的增加，这种差异变得更加明显。

底层机制

df.apply() 通过一系列 Python 级别的循环进行操作，这引入了重要的开销。每次迭代都涉及创建一个新的 Pandas Series 对象、调用该函数并将结果附加到新列。相比之下，np.vectorize() 利用 NumPy 的广播规则来评估数组上的函数。这种方法绕过了 Python 循环的开销，并利用了优化的 C 代码，从而加快了执行速度。

真正的向量化

对于真正的向量化计算，df.apply 都不是() 和 np.vectorize() 都不是最佳的。相反，本机 NumPy 操作提供了卓越的性能。例如，矢量化的 diverge() 比 df.apply() 或 np.vectorize() 显示出显着的性能优势。

使用 Numba 进行 JIT 编译

For为了获得更高的效率，可以使用 Numba 的 @njit 装饰器将 divide() 函数编译为高效的 C 级代码。这种方法进一步减少了执行时间，以微秒而不是秒为单位产生结果。

结论

虽然 df.apply() 提供了一个方便的接口来将函数应用于数据帧，对于大型数据集，其性能限制变得显而易见。对于性能关键型应用程序，NumPy 的 np.vectorize() 及其 Numba 中 JIT 编译的对应项为创建新列提供了卓越的速度。还值得注意的是，使用本机 NumPy 函数的真正向量化操作是大规模数据操作的最有效选择。

以上是Pandas Apply 与 NumPy Vectorize：哪个创建新列更快？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python的科学计算中如何使用阵列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何处理同一系统上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通过使用pyenv、venv和Anaconda来管理不同的Python版本。1）使用pyenv管理多个Python版本：安装pyenv，设置全局和本地版本。2）使用venv创建虚拟环境以隔离项目依赖。3）使用Anaconda管理数据科学项目中的Python版本。4）保留系统Python用于系统级任务。通过这些工具和策略，你可以有效地管理不同版本的Python，确保项目顺利运行。

与标准Python阵列相比，使用Numpy数组的一些优点是什么？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基于基于duetoc的iMplation，2）2）他们的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函数函数函数函数构成和稳定性构成和稳定性的操作，制造

阵列的同质性质如何影响性能？Apr 25, 2025 am 12:13 AM

数组的同质性对性能的影响是双重的：1)同质性允许编译器优化内存访问，提高性能；2)但限制了类型多样性，可能导致效率低下。总之，选择合适的数据结构至关重要。

编写可执行python脚本的最佳实践是什么？Apr 25, 2025 am 12:11 AM

到CraftCraftExecutablePythcripts，lollow TheSebestPractices：1）Addashebangline（＃！/usr/usr/bin/envpython3）tomakethescriptexecutable.2）setpermissionswithchmodwithchmod xyour_script.3）

Numpy数组与使用数组模块创建的数组有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，内存效率段

Numpy数组的使用与使用Python中的数组模块阵列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模块与Python中的数组有何关系？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

See all articles