Maison  >  Article  >  développement back-end  >  Comment Numpy peut-il améliorer les performances d'approximation Haversine dans les calculs Pandas ?

Comment Numpy peut-il améliorer les performances d'approximation Haversine dans les calculs Pandas ?

Patricia Arquette
Patricia Arquetteoriginal
2024-10-31 20:42:02734parcourir

How Can Numpy Enhance Haversine Approximation Performance in Pandas Calculations?

approximation rapide Haversine : tirer parti de Numpy pour des performances améliorées dans les calculs Pandas

Calcul des distances entre des paires de coordonnées dans un DataFrame Pandas à l'aide de la formule Haversine peut être coûteux en termes de calcul pour de grands ensembles de données. Cependant, lorsque les points sont relativement proches et que les exigences de précision sont assouplies, une approximation plus rapide est possible.

Considérez l'extrait de code suivant :

<code class="python">def haversine(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

for index, row in df.iterrows():
    df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>

Pour optimiser les performances de ce code, nous peut exploiter les puissantes opérations de tableau et les capacités de vectorisation de Numpy. Cette approche élimine le besoin de boucle et permet un traitement efficace de tableaux entiers simultanément.

Voici une implémentation vectorisée utilisant Numpy :

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

inputs = map(np.radians, [lon1, lat1, lon2, lat2])
distance = haversine_np(*inputs)</code>

Pour l'incorporer dans un Pandas DataFrame, nous pouvons simplement utiliser ce qui suit :

<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>

Cette approche vectorisée tire parti des opérations optimisées de Numpy et élimine le processus de bouclage fastidieux. Par conséquent, le calcul est nettement plus rapide, en particulier pour les grands ensembles de données. En tirant parti de la puissance de Numpy, nous pouvons obtenir des approximations haversine plus rapides et plus efficaces dans Pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn