


Dalam senario pemprosesan data harian, pemprosesan data dalam format yang berbeza memerlukan kaedah penghuraian yang berbeza. Untuk data dalam format XML, kita boleh menggunakan ungkapan biasa dalam Python untuk menghurai. Artikel ini akan memperkenalkan idea asas dan kaedah menggunakan ungkapan biasa Python untuk pemprosesan XML.
- Pengenalan asas XML
XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menerangkan data. Ciri penting XML ialah anda boleh menyesuaikan teg, yang menjadikan data format XML lebih fleksibel dan boleh menyesuaikan diri dengan pelbagai keperluan format data.
Teg XML dibalut dengan kurungan sudut (), seperti <tag></tag>
. Setiap dokumen XML mesti mempunyai nod akar, yang boleh mengandungi sebarang nombor dan jenis elemen. Struktur asas dokumen XML adalah seperti berikut:
<?xml version="1.0" encoding="UTF-8"?> <root> <element1> <subelement1>value1</subelement1> <subelement2>value2</subelement2> </element1> <element2> <subelement3>value3</subelement3> </element2> </root>
- Ekspresi biasa Python
Ekspresi biasa ialah alat yang digunakan untuk memadankan rentetan sintaks. Modul semula dalam Python menyediakan fungsi yang menyokong ungkapan biasa.
- re.match(corak, rentetan, bendera=0) Mula memadankan dari kedudukan permulaan rentetan (iaitu aksara pertama) dan mengembalikan objek Padanan. Jika perlawanan gagal, Tiada dikembalikan.
- re.search(corak, rentetan, bendera=0) Cari dalam rentetan dan kembalikan objek Padanan yang pertama. Jika perlawanan gagal, Tiada dikembalikan.
- re.findall(corak, rentetan, bendera=0) Memadankan semua subrentetan yang sepadan dalam rentetan dan mengembalikan senarai. Jika tiada padanan ditemui, senarai kosong dikembalikan.
- Gunakan ungkapan biasa untuk menghuraikan XML
Dalam pemprosesan XML, kami biasanya menggunakan ungkapan biasa untuk menghuraikan elemen dan atribut dalam XML. Berikut ialah contoh khusus:
import re xml_text = ''' <root> <person name="Tom" age="20"> <job>Engineer</job> </person> <person name="Alice" age="25"> <job>Doctor</job> </person> </root> ''' # 正则表达式 person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>' # 使用search函数匹配字符串 result = re.findall(person_pattern, xml_text, re.S) for person in result: name, age, job = person print("name:{}, age:{}, job:{}".format(name, age, job))
Dalam kod di atas, teks format XML pertama kali ditakrifkan, dan kemudian ungkapan biasa ditakrifkan untuk memadankan elemen orang dan atributnya. Dengan menggunakan fungsi padanan re.findall, semua keputusan padanan diperolehi.
Dalam contoh ini, kami menggunakan ungkapan biasa yang lebih kompleks. Dalam ungkapan biasa:
-
.+?
sepadan dengan mana-mana watak dan tidak tamak padanan untuk menghalang unsur orang lain daripada disertakan. -
.??
sepadan dengan tanda tanya. -
.*?
sepadan dengan mana-mana watak, padanan tidak tamak untuk mengelakkan teg berlebihan. -
(.+?)
mentakrifkan kumpulan penangkapan yang mewakili atribut yang dihuraikan atau maklumat teks. -
s
sepadan dengan mana-mana aksara ruang putih. -
sepadan dengan teg penutup.
Dengan cara ini, kita boleh menghuraikan elemen dan atribut yang ditentukan dalam data XML dengan mudah.
- Nota
Apabila menggunakan ungkapan biasa Python untuk pemprosesan XML, kita perlu memberi perhatian kepada perkara berikut:
- Gunakan bukan- tamak Padanan corak dilakukan untuk mengelakkan menghuraikan elemen dan teg yang berlebihan dan menyebabkan ralat.
- Memandangkan XML boleh disarangkan, julat padanan perlu ditetapkan untuk mengelakkan penghuraian kandungan nod berbeza ke dalam kandungan nod yang sama secara salah.
- Ungkapan biasa Python sepadan dengan rentetan, jadi teks XML perlu ditukar menjadi rentetan untuk operasi.
- Untuk fail XML yang kompleks, adalah disyorkan untuk menggunakan alat pemprosesan XML profesional, seperti lxml.
- Ringkasan
Ekspresi biasa Python ialah alat pemprosesan teks yang berkuasa yang boleh digunakan untuk menghuraikan data dalam pelbagai format, termasuk data format XML. Dengan menggunakan ungkapan biasa, kami boleh menghuraikan elemen dan atribut dengan mudah dalam fail XML. Walau bagaimanapun, disebabkan kerumitan format XML, kita perlu berfikir dengan teliti dan menganalisisnya semasa pemprosesan untuk mengelakkan ralat padanan.
Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan XML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

Dreamweaver CS6
Alat pembangunan web visual
