Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Apakah kaedah untuk membuang pendua dalam panda?

Apakah kaedah untuk membuang pendua dalam panda?

百草
百草asal
2023-11-22 11:55:173700semak imbas

Kaedah deduplikasi panda ialah: 1. Gunakan kaedah drop_duplicates() 2. Gunakan kaedah duplicated() 3. Gunakan kaedah unique() 4. Gunakan kaedah value_counts(). Pengenalan terperinci: 1. Gunakan kaedah drop_duplicates() untuk memadamkan baris pendua dalam bingkai data dan mengembalikan bingkai data baharu Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan dan penyahduplikasian selepas perbandingan masa lajur dan sebagainya.

Apakah kaedah untuk membuang pendua dalam panda?

Sistem pengendalian tutorial ini: sistem Windows 10, komputer DELL G3.

Pandas ialah perpustakaan analisis data Python yang berkuasa yang menyediakan pelbagai kaedah penyingkiran pendua. Berikut ialah kaedah biasa untuk operasi penduaan menggunakan Panda:

1 Gunakan kaedah drop_duplicates()

Kaedah drop_duplicates() digunakan untuk memadamkan baris pendua dalam bingkai data dan mengembalikan bingkai data baharu. Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan selepas penyahduplikasian, lajur perbandingan semasa penyahduplikasian, dsb.

Kod contoh:

import pandas as pd  
  
df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]})  
df_unique = df.drop_duplicates()  # 默认情况下,按行进行去重,返回新的数据框

2. Gunakan kaedah pendua()

Kaedah pendua() digunakan untuk mencari baris pendua dalam bingkai data dan mengembalikan siri Boolean. Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan selepas penyahduplikasian, lajur perbandingan semasa penyahduplikasian, dsb.

Kod sampel:

import pandas as pd  
  
df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]})  
df_unique = df[~df.duplicated()]  # 使用duplicated()方法查找重复的行,并使用逻辑非运算符返回不重复的行

3 Gunakan kaedah unique()

unique() digunakan untuk mengembalikan semua nilai unik dalam bingkai data dan mengembalikan senarai atau objek Siri. Ia boleh digunakan untuk menyahduplikasi satu atau berbilang lajur.

Kod contoh:

import pandas as pd  
  
df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]})  
df_unique = df.apply(lambda x: pd.Series(x.unique()))  # 使用apply()方法对每一列进行去重,并返回一个Series对象

4. Gunakan kaedah value_counts()

value_counts() digunakan untuk mengira bilangan kejadian setiap nilai dalam bingkai data dan mengembalikan objek Siri. Ia boleh digunakan untuk menyahduplikasi satu atau berbilang lajur.

Contoh kod:

import pandas as pd  
  
df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]})  
df_unique = df.groupby(df.columns.tolist()).size().reset_index(name='counts')  # 对整个数据框进行分组计数,并返回一个Series对象,然后使用reset_index()方法转换为数据框格式,方便查看每个值的出现次数

Atas ialah kandungan terperinci Apakah kaedah untuk membuang pendua dalam panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn