Cara menggunakan ungkapan biasa Python untuk pemprosesan XML-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Cara menggunakan ungkapan biasa Python untuk pemprosesan XML

王林

Jun 23, 2023 am 09:34 AM

pythonungkapan biasapemprosesan xml

Dalam senario pemprosesan data harian, pemprosesan data dalam format yang berbeza memerlukan kaedah penghuraian yang berbeza. Untuk data dalam format XML, kita boleh menggunakan ungkapan biasa dalam Python untuk menghurai. Artikel ini akan memperkenalkan idea asas dan kaedah menggunakan ungkapan biasa Python untuk pemprosesan XML.

Pengenalan asas XML

XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menerangkan data. Ciri penting XML ialah anda boleh menyesuaikan teg, yang menjadikan data format XML lebih fleksibel dan boleh menyesuaikan diri dengan pelbagai keperluan format data.

Teg XML dibalut dengan kurungan sudut (), seperti <tag></tag>. Setiap dokumen XML mesti mempunyai nod akar, yang boleh mengandungi sebarang nombor dan jenis elemen. Struktur asas dokumen XML adalah seperti berikut:

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <element1>
        <subelement1>value1</subelement1>
        <subelement2>value2</subelement2>
    </element1>
    <element2>
        <subelement3>value3</subelement3>
    </element2>
</root>

Ekspresi biasa Python

Ekspresi biasa ialah alat yang digunakan untuk memadankan rentetan sintaks. Modul semula dalam Python menyediakan fungsi yang menyokong ungkapan biasa.

re.match(corak, rentetan, bendera=0) Mula memadankan dari kedudukan permulaan rentetan (iaitu aksara pertama) dan mengembalikan objek Padanan. Jika perlawanan gagal, Tiada dikembalikan.
re.search(corak, rentetan, bendera=0) Cari dalam rentetan dan kembalikan objek Padanan yang pertama. Jika perlawanan gagal, Tiada dikembalikan.
re.findall(corak, rentetan, bendera=0) Memadankan semua subrentetan yang sepadan dalam rentetan dan mengembalikan senarai. Jika tiada padanan ditemui, senarai kosong dikembalikan.

Gunakan ungkapan biasa untuk menghuraikan XML

Dalam pemprosesan XML, kami biasanya menggunakan ungkapan biasa untuk menghuraikan elemen dan atribut dalam XML. Berikut ialah contoh khusus:

import re

xml_text = '''
<root>
    <person name="Tom" age="20">
        <job>Engineer</job>
    </person>
    <person name="Alice" age="25">
        <job>Doctor</job>
    </person>
</root>
'''

# 正则表达式
person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>'

# 使用search函数匹配字符串
result = re.findall(person_pattern, xml_text, re.S)
for person in result:
    name, age, job = person
    print("name:{}, age:{}, job:{}".format(name, age, job))

Dalam kod di atas, teks format XML pertama kali ditakrifkan, dan kemudian ungkapan biasa ditakrifkan untuk memadankan elemen orang dan atributnya. Dengan menggunakan fungsi padanan re.findall, semua keputusan padanan diperolehi.

Dalam contoh ini, kami menggunakan ungkapan biasa yang lebih kompleks. Dalam ungkapan biasa:

.+? sepadan dengan mana-mana watak dan tidak tamak padanan untuk menghalang unsur orang lain daripada disertakan.
.?? sepadan dengan tanda tanya.
.*? sepadan dengan mana-mana watak, padanan tidak tamak untuk mengelakkan teg berlebihan.
(.+?) mentakrifkan kumpulan penangkapan yang mewakili atribut yang dihuraikan atau maklumat teks.
s sepadan dengan mana-mana aksara ruang putih.
sepadan dengan teg penutup.

Dengan cara ini, kita boleh menghuraikan elemen dan atribut yang ditentukan dalam data XML dengan mudah.

Nota

Apabila menggunakan ungkapan biasa Python untuk pemprosesan XML, kita perlu memberi perhatian kepada perkara berikut:

Gunakan bukan- tamak Padanan corak dilakukan untuk mengelakkan menghuraikan elemen dan teg yang berlebihan dan menyebabkan ralat.
Memandangkan XML boleh disarangkan, julat padanan perlu ditetapkan untuk mengelakkan penghuraian kandungan nod berbeza ke dalam kandungan nod yang sama secara salah.
Ungkapan biasa Python sepadan dengan rentetan, jadi teks XML perlu ditukar menjadi rentetan untuk operasi.
Untuk fail XML yang kompleks, adalah disyorkan untuk menggunakan alat pemprosesan XML profesional, seperti lxml.

Ringkasan

Ekspresi biasa Python ialah alat pemprosesan teks yang berkuasa yang boleh digunakan untuk menghuraikan data dalam pelbagai format, termasuk data format XML. Dengan menggunakan ungkapan biasa, kami boleh menghuraikan elemen dan atribut dengan mudah dalam fail XML. Walau bagaimanapun, disebabkan kerumitan format XML, kita perlu berfikir dengan teliti dan menganalisisnya semasa pemprosesan untuk mengelakkan ralat padanan.

Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan XML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Bagaimana anda memotong senarai python?May 02, 2025 am 12:14 AM

Slicingapythonlistisdoneusingthesyntaxlist [Mula: berhenti: langkah] .here'showitworks: 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelementToexclude.3)

Apakah beberapa operasi biasa yang boleh dilakukan pada array numpy?May 02, 2025 am 12:09 AM

NumpyallowsforvariousoperationsonArrays: 1) BasicarithmeticLikeaddition, penolakan, pendaraban, danDivision; 2) Pengerjaan AdvancedSuchasmatrixmultiplication; 3) Element-WiseOperationswithoutExplicitLoops;

Bagaimana tatasusunan digunakan dalam analisis data dengan python?May 02, 2025 am 12:09 AM

Arraysinpython, terutamanya yang ada, adalah, penawaran yang ditawarkan.1) numpyarraysenableFandlingoflargedataSetsandClexPleperationsLikemovingAverages.2)

Bagaimanakah jejak memori senarai dibandingkan dengan jejak memori array di Python?May 02, 2025 am 12:08 AM

ListsSandnumpyAraySInpythonHavedifferMememoryFootPrints: listsaremoreflexibleButlessMememory-cekap, pemanmak

Bagaimana anda mengendalikan konfigurasi khusus persekitaran semasa menggunakan skrip python yang boleh dilaksanakan?May 02, 2025 am 12:07 AM

ToensurePythonscriptsbehaveCorrectlyCrossdevelopment, pementasan, dan produksi, usetheseStregies: 1) Environmentvariablesforsimplesettings, 2) ConfigurationFilesfilePlexSetups, dan3) Dynamicloadingforadaptability.EachMethodeFerPiReFiteReFiteShitsandReFitSandRiteFitSandRiteFitSandRiteFiteSandRiteReFitSandRiteReFitSandRiteFiteShiteSandReFiteShitsandReShitsAnfitsEts,

Bagaimana anda memotong array python?May 01, 2025 am 12:18 AM

Sintaks asas untuk pengirim senarai python adalah senarai [Mula: Berhenti: Langkah]. 1. Start adalah indeks elemen pertama yang disertakan, 2.Stop adalah indeks elemen pertama yang dikecualikan, dan 3. Step menentukan saiz langkah antara elemen. Hirisan tidak hanya digunakan untuk mengekstrak data, tetapi juga untuk mengubah suai dan membalikkan senarai.

Di bawah keadaan apa yang mungkin senarai lebih baik daripada tatasusunan?May 01, 2025 am 12:06 AM

ListsOutPerFormAraySin: 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData, dan3) MemoryeficiencyForSparsedata, ButmayHaveslightPerformancecostSincertaor.

Bagaimana anda boleh menukar array python ke senarai python?May 01, 2025 am 12:05 AM

ToConvertapythonarraytoalist, usethelist () constructororageneratorexpression.1) importTheArrayModuleAndCreateeanArray.2) uselist (arr) atau [xforxinarr] toConvertittoalist, urusanPengerasiPormanceAndMemoryeficiencyForlargedatasets.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.