Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?

Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?

Patricia Arquette
Patricia Arquetteasal
2024-11-02 18:58:02342semak imbas

How Can You Quickly Calculate Distances Between Geographic Coordinates in Python and Pandas for Large Datasets?

Penghampiran Haversine Pantas dalam Python dan Panda

Mengira jarak antara koordinat geografi menggunakan formula Haversine boleh memakan masa untuk set data yang besar. Untuk aplikasi yang ketepatannya tidak kritikal dan titik berada dalam jarak yang dekat (cth., di bawah 50 batu), terdapat pengoptimuman yang boleh mempercepatkan proses dengan ketara.

Pelaksanaan Numpy Vektor

Formula Haversine boleh divektorkan menggunakan tatasusunan NumPy. Pendekatan ini memanfaatkan fungsi matematik yang dioptimumkan NumPy untuk melaksanakan pengiraan pada keseluruhan tatasusunan, menghapuskan keperluan untuk gelung eksplisit dan meningkatkan prestasi.

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

    dlon = lon2 - lon1
    dlat = lat2 - lat1

    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2

    c = 2 * np.arcsin(np.sqrt(a))
    km = 6378.137 * c
    return km</code>

Integrasi Panda

Mengintegrasikan vektor Fungsi NumPy dengan bingkai data Pandas adalah mudah. Input kepada haversine_np boleh diberikan secara langsung sebagai lajur daripada bingkai data. Contohnya:

<code class="python">import pandas as pd

# Randomly generated data
lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000)
df = pd.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2})

# Calculate distances using vectorized NumPy function
km = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])

# Append distances to dataframe
df['distance'] = km</code>

Faedah Vektorisasi

Vektorisasi mengelakkan keperluan untuk gelung eksplisit, yang sememangnya perlahan dalam Python. Sebaliknya, operasi bervektor dilakukan secara langsung pada tatasusunan, mengeksploitasi kod C asas yang dioptimumkan oleh NumPy. Ini menghasilkan peningkatan prestasi yang ketara, terutamanya untuk set data yang besar.

Nota:

Walaupun pendekatan yang dioptimumkan ini memberikan percepatan yang ketara, ia memperkenalkan pertukaran kecil dalam ketepatan berbanding dengan formula asal bukan vektor. Walau bagaimanapun, untuk kes di mana jarak kurang daripada 50 batu dan ketepatan tidak diutamakan, faedah prestasi melebihi kehilangan jisim dalam ketepatan.

Atas ialah kandungan terperinci Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn