Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk menggunakan set data sumber terbuka dalam Python?
Dengan kemunculan era data besar, analisis data dan pembelajaran mesin telah menjadi bidang yang popular. Walau bagaimanapun, cara mendapatkan set data, menganalisisnya dan melatih model boleh menjadi tugas yang sukar untuk pemula. Untuk menyelesaikan masalah ini, komuniti sumber terbuka telah menyediakan set data yang kaya, dan Python, sebagai bahasa pengaturcaraan yang popular, juga menyediakan pelbagai kaedah untuk menggunakan set data ini.
Artikel ini memperkenalkan kaedah dan alatan untuk menggunakan set data sumber terbuka dalam Python, seperti pemuatan data, penyemakan imbas, pembersihan, visualisasi dan analisis. Kami akan menggunakan set data yang tersedia untuk umum untuk demonstrasi praktikal untuk membantu pembaca menguasai kemahiran ini.
Mula-mula, kita perlu memuatkan set data ke dalam program Python. Terdapat banyak set data sumber terbuka yang boleh dimuat turun dari web, seperti Repositori Pembelajaran Mesin UCI, Kaggle, dsb. Set data ini biasanya disimpan dalam pelbagai format seperti CSV, JSON dan XML.
Dalam Python, panda ialah pustaka yang sangat berguna Kita boleh menggunakan panda untuk memuatkan set data dalam format CSV dengan beberapa baris kod:
import pandas as pd data = pd.read_csv("example.csv")
print(data.head())Jika kita ingin melihat beberapa baris terakhir dalam set data, kita boleh menggunakan kaedah tail(). Kita juga boleh menggunakan atribut shape untuk mendapatkan saiz set data:
print(data.shape)Selain itu, kita boleh menggunakan kaedah describe() untuk mendapatkan statistik ringkas bagi set data, seperti sebagai nilai minimum, nilai maksimum , purata, dsb.:
print(data.describe())
data.fillna(0, inplace=True)Jika kita ingin memadamkan baris pendua dalam set data, kita boleh menggunakan drop_duplicates ( ) Kaedah:
data.drop_duplicates(inplace=True)Untuk outlier, kita boleh menggunakan sisihan piawai untuk menentukan sama ada ia tidak normal dan menggantikannya dengan min:
mean = data["col"].mean() std = data["col"].std() cut_off = std * 3 lower, upper = mean - cut_off, mean + cut_off new_data = [x if x > lower and x < upper else mean for x in data["col"]] data["col"] = new_data
import matplotlib.pyplot as plt plt.plot(data["col"]) plt.show()atau gunakan kaedah Pairplot pustaka Seaborn untuk membuat carta pengedaran berbilang pembolehubah:
import seaborn as sns sns.pairplot(data)
from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X = data[["col1", "col2"]] y = data["target_col"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)Dalam contoh di atas, kami menggunakan kaedah train_test_split untuk membahagikan set data kepada set latihan dan set ujian, dan kemudian Gunakan kelas LinearRegression untuk membina model, dan akhirnya gunakan kaedah ramalan untuk meramal set ujian. KesimpulanArtikel ini memperkenalkan cara menggunakan set data sumber terbuka untuk analisis data dan pembelajaran mesin dalam Python. Kami menggunakan pustaka panda untuk memuatkan dan menyemak imbas set data, perpustakaan Matplotlib dan Seaborn untuk visualisasi data, dan perpustakaan Scikit-Learn untuk membina dan melatih model. Teknik dan alatan ini bukan sahaja terpakai pada set data sumber terbuka yang disebut dalam artikel ini, tetapi juga pada jenis set data lain, seperti data Web, data penderia, dsb. Apabila analisis data dan pembelajaran mesin berkembang, teknologi dan alatan ini akan terus dikemas kini dan dipertingkatkan, memberikan prestasi yang lebih baik dan kemudahan penggunaan.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan set data sumber terbuka dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!