Rumah > Artikel > pembangunan bahagian belakang > Cara menggunakan ungkapan biasa Python untuk pemprosesan fail Excel
Dalam proses pemprosesan data, fail Excel ialah sumber data yang digunakan secara meluas. Sebagai bahasa pemprosesan dan analisis data, Python sangat penting untuk dapat memproses fail Excel. Untuk pemprosesan teks dalam prapemprosesan data, ungkapan biasa juga merupakan alat yang sangat diperlukan. Artikel ini akan memperkenalkan secara terperinci cara menggunakan ungkapan biasa Python untuk memproses fail Excel.
1. Python mengendalikan Excel
Perpustakaan biasa untuk membaca dan menulis fail Excel dalam Python termasuk openpyxl, panda, xlwt, xlrd, dsb. Di sini kami terutamanya menggunakan perpustakaan openpyxl. openpyxl ialah perpustakaan Python untuk membaca dan menulis fail Excel. Ia boleh mengendalikan fail xlsx/xlsm/xltx/xltm.
Anda perlu menggunakan pip install openpyxl untuk memasangnya sebelum digunakan.
Apabila membaca fail Excel, kita hanya perlu menentukan laluan fail Excel untuk dibaca dan nama Helaian bagi operasi yang diperlukan, dan kandungan Helaian boleh dibaca ke dalam ingatan. Berikut ialah contoh:
from openpyxl import load_workbook # 打开工作簿 wb = load_workbook(filename='example.xlsx', read_only=True) # 打开工作表 ws = wb['Sheet1'] # 读取单元格内容 cell_value = ws['A1'].value
Di mana nama fail ialah laluan fail Excel untuk dibaca dan parameter baca_sahaja ialah Benar untuk membaca fail dalam cara baca sahaja, yang boleh mempercepatkan bacaan fail. ws mewakili Helaian yang akan dikendalikan.
Apabila membaca fail Excel, kami biasanya menggunakan import panda sebagai pd, dan kemudian menggunakan fungsi pd.read_excel() untuk membaca fail, seperti yang ditunjukkan di bawah:
import pandas as pd df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
Antaranya, sheet_name parameter Mewakili Helaian untuk dibaca.
2. Ungkapan biasa
Ungkapan biasa ialah ungkapan yang digunakan untuk memadankan teks yang sepadan dengan corak dalam rentetan. Python menyediakan modul semula untuk melaksanakan fungsi ekspresi biasa.
Apabila menggunakan ungkapan biasa dalam Python, kita perlu memberi perhatian kepada perkara berikut:
Karakter dan simbol meta biasa adalah seperti berikut:
符号/元字符 | 含义 |
---|---|
. | 任意字符 |
w | 字母、数字和下划线 |
W | 不是字母、数字和下划线 |
d | 数字 |
D | 非数字 |
s | 空白字符,包括空格、制表符、换行符等 |
S | 非空白字符 |
^ | 匹配字符串开始 |
$ | 带这个字符匹配字符串结束 |
* | 匹配前面一个字符0到多次 |
+ | 匹配前面一个字符1到多次 |
? | 匹配前面一个字符0或1次 |
三、使用正则表达式处理Excel文件
有了以上介绍,我们可以开始利用正则表达式进行 Excel 文件的处理。
在使用正则表达式读取 Excel 文件时,我们可以先将 Excel 文件读取到 Pandas DataFrame 中,然后对 DataFrame 进行操作。以下是一个例子:
import pandas as pd # 读取Excel文件,指定要处理的Sheet df = pd.read_excel('example.xlsx', sheet_name='Sheet1') # 利用正则表达式将文件中10开头的字符替换为'Hello' df['A'] = df['A'].str.replace(r'^10', 'Hello')
以上代码中,我们将通过正则表达式 '^10'
匹配第一列中以 ‘10’ 开头的数据,然后将其替换为 ‘Hello’。
在 Python 中,有多种正则表达式的处理方式,这里不一一赘述,读者可以根据实际情况进行选择。
四、常见Excel文件处理操作
除了上述例子中的替换操作,Excel 文件中常见的操作还包括筛选、去重等。下面来介绍一下利用正则表达式进行这些操作的方法。
我们可以利用 Pandas DataFrame 的 filter 方法,将符合条件的行筛选出来。以下是示例代码:
import pandas as pd # 读取Excel文件,指定要处理的Sheet df = pd.read_excel('example.xlsx', sheet_name='Sheet1') # 正则表达式筛选满足条件的行 df = df.filter(regex='^1.*|.*Green.*', axis=0)
以上代码中,‘^1.’ 表示以 ‘1’ 开头的任意字符,‘|.Green.*’ 表示任意字符中包含 ‘Green’ 的行。可以根据实际情况修改正则表达式来筛选需要的行。
为了去除重复行,我们可以利用 Pandas DataFrame 中的 drop_duplicates 方法。下面是一个示例代码:
import pandas as pd # 读取Excel文件,指定要处理的Sheet df = pd.read_excel('example.xlsx', sheet_name='Sheet1') # 根据正则表达式去重 df.drop_duplicates(subset=['A', 'B'])
以上代码中,subset 参数表示根据列名进行去重。可以根据实际情况修改该参数,从而达到需要的去重效果。
五、总结
本文通过 openpyxl 库和正则表达式的介绍,详细讲解了如何使用 Python 对 Excel 文件进行预处理操作。广大读者在使用过程中只需要理解正则表达式的语法规则,就可以根据实际情况灵活运用其进行Excel文件的处理。
Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan fail Excel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!