Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk mengalih keluar pendua menggunakan ungkapan biasa Python

Bagaimana untuk mengalih keluar pendua menggunakan ungkapan biasa Python

PHPz
PHPzasal
2023-06-22 12:31:521735semak imbas

Dalam analisis dan prapemprosesan data, selalunya perlu memproses item pendua dalam data. Menggunakan ungkapan biasa Python ialah cara yang cekap dan fleksibel untuk mengalih keluar pendua. Dalam artikel ini, kami akan menerangkan cara mengalih keluar pendua menggunakan ungkapan biasa Python.

  1. Import perpustakaan yang diperlukan

Pertama, kita perlu mengimport perpustakaan yang diperlukan, termasuk semula dan panda. Antaranya, perpustakaan semula ialah perpustakaan yang digunakan khusus untuk operasi ekspresi biasa dalam perpustakaan standard Python manakala perpustakaan panda adalah perpustakaan penting dalam bidang analisis data dan digunakan untuk memproses data.

import semula
import panda sebagai pd

  1. Baca data

Seterusnya, kita perlu membaca data untuk diproses. Di sini kita mengambil fail csv sebagai contoh dan menggunakan fungsi read_csv perpustakaan panda untuk membaca data.

data = pd.read_csv('data.csv')

  1. Cari pendua

Sebelum mengalih keluar pendua, kita perlu mencari pendua terlebih dahulu dalam data tersebut. Kita boleh menggunakan fungsi pendua pustaka panda untuk menentukan sama ada setiap baris data diduplikasi dengan baris data sebelumnya.

Nilai sama ada setiap baris data ialah pendua

is_duplicated = data.duplicated()

Lihat pendua

duplicated_data = data[is_duplicated]
print('Terdapat %d pendua' % len(data_pendua))

  1. Alih keluar pendua

Dengan indeks pendua, kami boleh menggunakan Ekspresi biasa mengalih keluar pendua. Di sini, kita boleh menggunakan sub fungsi perpustakaan semula, yang boleh menggantikan sesuatu dalam rentetan berdasarkan ungkapan biasa.

Sebagai contoh, jika kita ingin mengalih keluar ruang tambahan dalam rentetan, kita boleh menggunakan ungkapan biasa berikut:

pattern = r's+'
replacement = ' '

di mana, Corak ialah corak ungkapan biasa yang sepadan dengan ruang tambahan, iaitu, s+ bermaksud memadankan satu atau lebih ruang dan penggantian ialah kandungan yang akan digantikan di sini kita menggantikan ruang tambahan dengan satu ruang.

Seterusnya, kami menggunakan corak regex ini pada setiap lajur dalam data, mengalih keluar pendua.

Tentukan corak ungkapan biasa untuk mengalih keluar pendua

corak = r's+'
replacement = ' '

Lelar melalui setiap lajur dalam data dan alih keluar pendua

untuk col dalam data.columns:

data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))

Selepas melengkapkan penduaan, kita boleh menggunakan fungsi pendua untuk menyemak semula sama ada terdapat pendua dalam data untuk memastikan ketepatan operasi penduaan.

Semak semula sama ada terdapat pendua dalam data

is_duplicated = data.duplicated()
if is_duplicated.any():

print('数据中仍存在重复项')

else:

print('数据中不存在重复项')
  1. Tulis data yang diproses pada fail

Akhir sekali, kita boleh menulis data yang diproses ke fail untuk kegunaan seterusnya.

data.to_csv('processed_data.csv', index=False)

Ringkasan

Ungkapan biasa ialah alat pemprosesan teks yang sangat berkuasa yang boleh digunakan untuk pemadanan rentetan aksara , penggantian dan operasi lain. Dalam analisis dan prapemprosesan data, menggunakan ungkapan biasa untuk mengalih keluar pendua ialah kaedah yang cekap dan fleksibel. Artikel ini memperkenalkan cara menggunakan ungkapan biasa Python untuk mengalih keluar pendua. Saya harap ia akan membantu pembaca.

Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar pendua menggunakan ungkapan biasa Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn