Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?
Penghampiran Haversine Pantas dalam Python dan Panda
Mengira jarak antara koordinat geografi menggunakan formula Haversine boleh memakan masa untuk set data yang besar. Untuk aplikasi yang ketepatannya tidak kritikal dan titik berada dalam jarak yang dekat (cth., di bawah 50 batu), terdapat pengoptimuman yang boleh mempercepatkan proses dengan ketara.
Pelaksanaan Numpy Vektor
Formula Haversine boleh divektorkan menggunakan tatasusunan NumPy. Pendekatan ini memanfaatkan fungsi matematik yang dioptimumkan NumPy untuk melaksanakan pengiraan pada keseluruhan tatasusunan, menghapuskan keperluan untuk gelung eksplisit dan meningkatkan prestasi.
<code class="python">import numpy as np def haversine_np(lon1, lat1, lon2, lat2): lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2]) dlon = lon2 - lon1 dlat = lat2 - lat1 a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2 c = 2 * np.arcsin(np.sqrt(a)) km = 6378.137 * c return km</code>
Integrasi Panda
Mengintegrasikan vektor Fungsi NumPy dengan bingkai data Pandas adalah mudah. Input kepada haversine_np boleh diberikan secara langsung sebagai lajur daripada bingkai data. Contohnya:
<code class="python">import pandas as pd # Randomly generated data lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000) df = pd.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2}) # Calculate distances using vectorized NumPy function km = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2']) # Append distances to dataframe df['distance'] = km</code>
Faedah Vektorisasi
Vektorisasi mengelakkan keperluan untuk gelung eksplisit, yang sememangnya perlahan dalam Python. Sebaliknya, operasi bervektor dilakukan secara langsung pada tatasusunan, mengeksploitasi kod C asas yang dioptimumkan oleh NumPy. Ini menghasilkan peningkatan prestasi yang ketara, terutamanya untuk set data yang besar.
Nota:
Walaupun pendekatan yang dioptimumkan ini memberikan percepatan yang ketara, ia memperkenalkan pertukaran kecil dalam ketepatan berbanding dengan formula asal bukan vektor. Walau bagaimanapun, untuk kes di mana jarak kurang daripada 50 batu dan ketepatan tidak diutamakan, faedah prestasi melebihi kehilangan jisim dalam ketepatan.
Atas ialah kandungan terperinci Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!