>  기사  >  백엔드 개발  >  Numpy는 Pandas 계산에서 Haversine 근사 성능을 어떻게 향상시킬 수 있습니까?

Numpy는 Pandas 계산에서 Haversine 근사 성능을 어떻게 향상시킬 수 있습니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-31 20:42:02734검색

How Can Numpy Enhance Haversine Approximation Performance in Pandas Calculations?

빠른 Haversine 근사: Pandas 계산 성능 향상을 위해 Numpy 활용

haversine 공식을 사용하여 Pandas DataFrame에서 좌표 쌍 사이의 거리 계산 대규모 데이터 세트의 경우 계산 비용이 많이 들 수 있습니다. 그러나 점이 상대적으로 가깝고 정확도 요구 사항이 완화되면 더 빠른 근사치가 가능합니다.

다음 코드 조각을 고려하세요.

<code class="python">def haversine(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

for index, row in df.iterrows():
    df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>

이 코드의 성능을 최적화하려면 Numpy의 강력한 배열 작업 및 벡터화 기능을 활용할 수 있습니다. 이 접근 방식을 사용하면 루핑이 필요 없으며 전체 배열을 동시에 효율적으로 처리할 수 있습니다.

다음은 Numpy를 사용한 벡터화된 구현입니다.

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

inputs = map(np.radians, [lon1, lat1, lon2, lat2])
distance = haversine_np(*inputs)</code>

이를 Pandas DataFrame에 통합하려면 다음을 사용하면 됩니다. 다음은 다음과 같습니다.

<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>

이 벡터화된 접근 방식은 Numpy의 최적화된 작업을 활용하고 시간이 많이 걸리는 루핑 프로세스를 제거합니다. 결과적으로 특히 대규모 데이터 세트의 경우 계산이 훨씬 더 빨라집니다. Numpy의 강력한 기능을 활용하여 Pandas에서 더 빠르고 효율적인 Haversine 근사치를 얻을 수 있습니다.

위 내용은 Numpy는 Pandas 계산에서 Haversine 근사 성능을 어떻게 향상시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.