Rumah > Artikel > pembangunan bahagian belakang > Teknologi penghuraian dan analisis data XML dalam Python
Teknologi penghuraian dan analisis data XML dalam Python
XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menyimpan dan menghantar data. XML digunakan secara meluas dalam interaksi maklumat dan penyimpanan data. Python menyediakan pelbagai perpustakaan dan modul untuk menghuraikan dan menganalisis data XML. Dalam artikel ini, kami akan membincangkan cara menggunakan Python untuk menghuraikan dan menganalisis data XML, dan memberikan beberapa contoh kod.
Pustaka standard Python menyediakan perpustakaan xml.etree.ElementTree untuk menghuraikan dan memanipulasi data XML. Kita boleh menggunakan perpustakaan ini untuk melintasi pepohon XML, mencari elemen, mengakses atribut dan kandungan teks elemen, dsb.
Berikut ialah contoh XML mudah:
<book> <title>Python编程</title> <author>John Doe</author> <price>39.99</price> </book>
Kita boleh menggunakan perpustakaan xml.etree.ElementTree untuk menghuraikan data XML ke dalam objek Elemen dan mendapatkan maklumat yang sepadan dengan merentasi objek.
import xml.etree.ElementTree as ET # 解析XML数据 tree = ET.parse('book.xml') root = tree.getroot() # 遍历XML树 for child in root: print(child.tag, child.text) # 获取元素属性 title = root.find('title') print(title.get('lang')) # 获取元素文本内容 price = root.find('price').text print(price)
Kod di atas akan mengeluarkan keputusan berikut:
title Python编程 author John Doe price 39.99 None
Selain pustaka xml.etree.ElementTree, Python juga menyediakan perpustakaan lxml lain yang berkuasa, yang berdasarkan C bahasa. lxml menyediakan lebih banyak fungsi dan kaedah, menjadikan pemprosesan data XML lebih mudah.
Berikut ialah contoh menghuraikan data XML menggunakan perpustakaan lxml:
from lxml import etree # 解析XML数据 tree = etree.parse('book.xml') root = tree.getroot() # 遍历XML树 for child in root: print(child.tag, child.text) # 获取元素属性 title = root.find('title') print(title.get('lang')) # 获取元素文本内容 price = root.find('price').text print(price)
Kod ini sangat serupa dengan contoh sebelumnya, tetapi menggunakan perpustakaan lxml. Ia boleh didapati bahawa perpustakaan lxml adalah lebih mudah dan lebih langsung untuk digunakan, dan blok kod lebih ringkas.
XPath ialah teknologi yang sangat berguna semasa menghuraikan dan menganalisis data XML. XPath menyediakan sintaks ringkas untuk mencari nod dalam XML melalui ungkapan. Kedua-dua perpustakaan ElementTree dan lxml Python menyokong XPath.
Berikut ialah contoh penggunaan XPath untuk menghuraikan data XML:
from lxml import etree # 解析XML数据 tree = etree.parse('book.xml') root = tree.getroot() # 使用XPath定位元素 title = root.xpath('/book/title')[0] price = root.xpath('/book/price')[0] # 获取元素文本内容 print(title.text) print(price.text)
Kod di atas menggunakan ungkapan XPath/book/title
和/book/price
untuk mencari elemen tajuk dan harga masing-masing. Dengan menggunakan elemen pertama hasil kedudukan sebagai nod, kita boleh mendapatkan kandungan teks yang sepadan.
Melalui pengenalan artikel ini, kami telah mempelajari teknologi menggunakan Python untuk menghuraikan dan menganalisis data XML. Kami mempelajari cara menggunakan xml.etree.ElementTree dan perpustakaan lxml untuk menghuraikan data XML dan menggunakan XPath untuk lokasi. Selepas menguasai teknologi ini, kami boleh memproses data XML dengan lebih mudah dan mengekstrak maklumat yang kami perlukan.
(Nota: Contoh kod di atas adalah untuk rujukan sahaja. Apabila digunakan dalam amalan, sila laraskan dan ubah suainya mengikut struktur dan keperluan data XML tertentu.)
Atas ialah kandungan terperinci Teknologi penghuraian dan analisis data XML dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!