Rumah >pembangunan bahagian belakang >Tutorial Python >Mengendalikan Outlier dalam Python - Kaedah IQR
Sebelum mendedahkan sebarang cerapan daripada data dunia sebenar, adalah penting untuk meneliti data anda untuk memastikan data itu konsisten dan bebas daripada ralat. Walau bagaimanapun, Data boleh mengandungi ralat dan beberapa nilai mungkin kelihatan berbeza daripada nilai lain dan nilai ini dikenali sebagai outlier. Outlier memberi kesan negatif kepada analisis data yang membawa kepada cerapan yang salah yang membawa kepada pengambilan keputusan yang lemah oleh pemegang kepentingan. Oleh itu, menangani outlier adalah langkah kritikal dalam peringkat prapemprosesan data dalam sains data. Dalam artikel ini, kami akan menilai cara berbeza kami boleh menangani perkara luar.
Outlier ialah titik data yang berbeza dengan ketara daripada kebanyakan titik data dalam set data. Ia adalah nilai yang berada di luar julat nilai yang dijangka atau biasa untuk pembolehubah tertentu. outlier berlaku kerana pelbagai sebab contohnya, ralat semasa kemasukan data, ralat pensampelan. Dalam pembelajaran mesin, outlier boleh menyebabkan model anda membuat ramalan yang salah sehingga menyebabkan ramalan yang tidak tepat.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') plt.style.use('ggplot')
df_house_price = pd.read_csv(r'C:\Users\Admin\Desktop\csv files\housePrice.csv')
df_house_price.head()
sns.boxplot(df_house_price['Price']) plt.title('Box plot showing outliers in prices') plt.show()
Q1 = df_house_price['Price'].quantile(0.25) Q3 = df_house_price['Price'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
Sempadan atas bermaksud sebarang nilai di atas 12872625000.0 ialah outlier
Alih keluar nilai outlier dalam lajur harga
filt = (df_house_price['Price'] >= lower_bound) & (df_house_price['Price'] <= upper_bound) df = df_house_price[filt] df.head()
sns.boxplot(df['Price']) plt.title('Box plot after removing outliers') plt.show()
Kaedah IQR adalah mudah dan teguh kepada outlier dan tidak bergantung kepada andaian kenormalan. Kelemahannya ialah ia hanya boleh mengendalikan data univariate dan ia boleh mengalih keluar titik data yang sah jika data itu condong atau mempunyai ekor yang berat.
Terima kasih
ikuti saya di pautan masuk dan di github untuk mendapatkan maklumat lanjut.
Atas ialah kandungan terperinci Mengendalikan Outlier dalam Python - Kaedah IQR. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!