Apakah kaedah pembersihan data dalam Python?-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Apakah kaedah pembersihan data dalam Python?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 13, 2023 pm 04:19 PM

python

Pustaka yang diperlukan untuk pembersihan data di sini ialah perpustakaan panda Kaedah muat turun masih berjalan di terminal: pip install panda.

Mula-mula kita perlu membaca data

import pandas as pd
 
data = pd.read_csv(r&#39;E:\PYthon\用户价值分析 RFM模型\data.csv&#39;)
pd.set_option(&#39;display.max_columns&#39;, 888)  # 大于总列数
pd.set_option(&#39;display.width&#39;, 1000)
print(data.head())
print(data.info())

Baris. 3 Ia adalah untuk membaca data Terdapat panggilan fungsi baca dalam perpustakaan panda Format csv adalah yang paling cepat untuk membaca dan menulis.

Baris 4 dan 5 adalah untuk memaparkan semua lajur untuk tujuan bacaan Jika terdapat banyak lajur, pycharm akan menyembunyikan beberapa lajur tengah, jadi kami menambah dua baris kod ini untuk mengelakkannya daripada menjadi. tersembunyi.

Baris ke-6 menunjukkan pengepala jadual Kita boleh melihat medan yang ada dan nama lajur

Baris ke-7 menunjukkan maklumat asas jadual, jumlah data dalam setiap lajur dan. apakah jenis medan data. Berapa banyak data tidak kosong yang ada, jadi dalam langkah pertama kita dapat melihat lajur asas yang mempunyai nilai nol.

Apakah kaedah pembersihan data dalam Python?

Pemprosesan nilai nol

Selepas data.info() kita dapat melihat bahawa kebanyakan data mempunyai 541909 baris, jadi kami kira ia adalah Penerangan. Lajur ID Pelanggan tiada hasil

# 空值处理
print(data.isnull().sum())  # 空值中和，查看每一列的空值
 
# 空值删除
data.drop(columns=[&#39;Description&#39;], inplace=True)
print(data.info())
data.isnull()判断是否为空。data.isnumll().sum()计算空值数量。

Baris 5 memadamkan nilai nol Di sini, padamkan nilai nol lajur Penerangan terlebih dahulu bermaksud untuk mengubah suai data data tidak akan diubah suai , data cetakan masih sama seperti sebelumnya, atau pembolehubah ditakrifkan semula untuk tugasan.

Memandangkan terdapat sedikit nilai nol dalam lajur ini, lajur data ini tidak begitu penting untuk analisis data kami, jadi kami memilih untuk memadamkan keseluruhan lajur ini.

Jadual kami digunakan untuk menapis pelanggan, jadi kami menggunakan CustomerID sebagai standard untuk memadamkan lajur lain secara paksa

# CustomerID有空值
# 删除所有列的空值
data.dropna(inplace=True)
# print(data.info())
print(data.isnull().sum())  # 由于CustomerID为必须字段，所以强制删除其他列，以CustomerID为准

Di sini kami mula-mula melakukan penukaran jenis pada medan lain

Penukaran jenis

# 转换为日期类型
data[&#39;InvoiceDate&#39;] = pd.to_datetime(data[&#39;InvoiceDate&#39;])
 
# CustomerID 转换为整型
data[&#39;CustomerID&#39;] = data[&#39;CustomerID&#39;].astype(&#39;int&#39;)
print(data.info())

Di atas kita berurusan dengan nilai nol, seterusnya kita berurusan dengan outlier.

Pemprosesan lebih luar

Untuk melihat taburan data asas jadual, anda boleh menggunakan huraikan

print(data.describe())

untuk melihat bahawa nilai minimum dalam lajur Kuantiti data ialah -80995. Lajur ini jelas mempunyai outlier , jadi lajur ini perlu ditapis untuk outlier.

Hanya nilai yang lebih besar daripada 0 diperlukan.

Apakah kaedah pembersihan data dalam Python?

data = data[data[&#39;Quantity&#39;] > 0]
print(data)

Apabila dicetak, hanya terdapat 397924 baris.

Pemprosesan nilai pendua

# 查看重复值
print(data[data.duplicated()])

Apakah kaedah pembersihan data dalam Python?

Terdapat 5194 baris nilai pendua Nilai pendua di sini adalah pendua sepenuhnya, jadi ia adalah data yang tidak berguna dan kami boleh memadamnya.

Padamkan nilai pendua

# 删除重复值
data.drop_duplicates(inplace=True)
 
print(data.info())

Simpan jadual asal selepas pemadaman, dan kemudian semak maklumat asas jadual

Apakah kaedah pembersihan data dalam Python?

Sekarang Terdapat Tinggal 392730 keping data. Pada langkah ini, pembersihan data selesai.

Atas ialah kandungan terperinci Apakah kaedah pembersihan data dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:亿速云. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Bagaimana anda memotong senarai python?May 02, 2025 am 12:14 AM

Slicingapythonlistisdoneusingthesyntaxlist [Mula: berhenti: langkah] .here'showitworks: 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelementToexclude.3)

Apakah beberapa operasi biasa yang boleh dilakukan pada array numpy?May 02, 2025 am 12:09 AM

NumpyallowsforvariousoperationsonArrays: 1) BasicarithmeticLikeaddition, penolakan, pendaraban, danDivision; 2) Pengerjaan AdvancedSuchasmatrixmultiplication; 3) Element-WiseOperationswithoutExplicitLoops;

Bagaimana tatasusunan digunakan dalam analisis data dengan python?May 02, 2025 am 12:09 AM

Arraysinpython, terutamanya yang ada, adalah, penawaran yang ditawarkan.1) numpyarraysenableFandlingoflargedataSetsandClexPleperationsLikemovingAverages.2)

Bagaimanakah jejak memori senarai dibandingkan dengan jejak memori array di Python?May 02, 2025 am 12:08 AM

ListsSandnumpyAraySInpythonHavedifferMememoryFootPrints: listsaremoreflexibleButlessMememory-cekap, pemanmak

Bagaimana anda mengendalikan konfigurasi khusus persekitaran semasa menggunakan skrip python yang boleh dilaksanakan?May 02, 2025 am 12:07 AM

ToensurePythonscriptsbehaveCorrectlyCrossdevelopment, pementasan, dan produksi, usetheseStregies: 1) Environmentvariablesforsimplesettings, 2) ConfigurationFilesfilePlexSetups, dan3) Dynamicloadingforadaptability.EachMethodeFerPiReFiteReFiteShitsandReFitSandRiteFitSandRiteFitSandRiteFiteSandRiteReFitSandRiteReFitSandRiteFiteShiteSandReFiteShitsandReShitsAnfitsEts,

Bagaimana anda memotong array python?May 01, 2025 am 12:18 AM

Sintaks asas untuk pengirim senarai python adalah senarai [Mula: Berhenti: Langkah]. 1. Start adalah indeks elemen pertama yang disertakan, 2.Stop adalah indeks elemen pertama yang dikecualikan, dan 3. Step menentukan saiz langkah antara elemen. Hirisan tidak hanya digunakan untuk mengekstrak data, tetapi juga untuk mengubah suai dan membalikkan senarai.

Di bawah keadaan apa yang mungkin senarai lebih baik daripada tatasusunan?May 01, 2025 am 12:06 AM

ListsOutPerFormAraySin: 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData, dan3) MemoryeficiencyForSparsedata, ButmayHaveslightPerformancecostSincertaor.

Bagaimana anda boleh menukar array python ke senarai python?May 01, 2025 am 12:05 AM

ToConvertapythonarraytoalist, usethelist () constructororageneratorexpression.1) importTheArrayModuleAndCreateeanArray.2) uselist (arr) atau [xforxinarr] toConvertittoalist, urusanPengerasiPormanceAndMemoryeficiencyForlargedatasets.

See all articles