首页  >  文章  >  后端开发  >  如何使用 Python 有效计算 Pandas 数据框中数百万个纬度/经度坐标之间的距离?

如何使用 Python 有效计算 Pandas 数据框中数百万个纬度/经度坐标之间的距离?

Mary-Kate Olsen
Mary-Kate Olsen原创
2024-11-02 03:46:30838浏览

How can I efficiently calculate distances between millions of latitude/longitude coordinates in a Pandas dataframe using Python?

Python/Pandas 中的快速半正弦近似

计算由存储在 a 中的纬度和经度坐标表示的点对之间的距离时会出现挑战熊猫数据框。对于数百万行来说,使用 Python 循环迭代每一行并应用半正弦公式的简单方法可能会导致计算成本高昂。然而,优化这个过程是可能的。

为了实现更快的计算,我们可以使用 NumPy 进行矢量化。 NumPy 提供基于数组的操作,可以通过避免显式循环来显着提高性能。这是半正弦函数的向量化 NumPy 版本:

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points on the earth (specified in decimal degrees).

    All args must be of equal length.
    """
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

    dlon = lon2 - lon1
    dlat = lat2 - lat1

    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2

    c = 2 * np.arcsin(np.sqrt(a))
    km = 6378.137 * c
    return km</code>

主要优点:

  1. 速度: NumPy 的向量化运算非常快优化并避免与循环相关的开销。
  2. 并行化:NumPy 支持并行化,这可以进一步加快多核系统上的计算速度。
  3. 简洁: 矢量化实现比循环版本更加简洁和优雅。

用法示例:

<code class="python">import numpy as np
import pandas

lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000)
df = pandas.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2})
km = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2'])

# Or, to create a new column for distances:
df['distance'] = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2'])</code>

通过利用 NumPy 的矢量化功能,它几乎可以立即计算数百万个点之间的距离。这种优化方法可以显着提高 Python/Pandas 中地理空间分析任务的效率。

以上是如何使用 Python 有效计算 Pandas 数据框中数百万个纬度/经度坐标之间的距离?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn