ホームページ >バックエンド開発 >Python チュートリアル >Python を使用して XML 内の URL とリンクを解析する

Python を使用して XML 内の URL とリンクを解析する

王林オリジナル: 2023-08-07 22:49:491175ブラウズ

タイトル: Python を使用して XML 内の URL とリンクを解析する

日々の開発作業では、XML ファイルのニーズから URL とリンクを抽出する必要に遭遇することがよくあります。この記事では、Python を使用して XML 内の URL とリンクを解析する方法と、対応するコード例を紹介します。

1. XML と解析ツールの紹介
XML (eXtensible Markup Language) は、データをマークするために使用される拡張可能なマークアップ言語であり、Web 開発やデータ対話などの分野で広く使用されています。 Python では、組み込みの xml.etree.ElementTree モジュールを使用して XML ファイルを解析できます。

2. 必要なモジュールのインポートと準備
開始する前に、必要なモジュールをインポートする必要があります。その中で、xml.etree.ElementTree は XML ファイルの解析に使用され、re モジュールは正規表現処理に使用されます。同時に、サンプル XML ファイルを準備する必要もあります。コードは次のとおりです。

import xml.etree.ElementTree as ET
import re

# 示例XML文件内容
xml_string = '''
<root>
    <item>
        <title>百度</title>
        <link>https://www.baidu.com</link>
    </item>
    <item>
        <title>谷歌</title>
        <link>https://www.google.com</link>
    </item>
    <item>
        <title>必应</title>
        <link>https://www.bing.com</link>
    </item>
</root>
'''

上の例では、3 つの item サブ要素を含む XML ルートノードを作成し、 title および link サブ要素は削除されます。

3. XML ファイル内の URL とリンクを解析する
次に、XML ファイル内の URL とリンクの解析を開始します。 XML ファイルを解析する手順は次のとおりです。

ElementTree オブジェクトを作成し、ルートノードを取得します
```
root = ET.fromstring(xml_string)
```
項目サブをトラバースします。ルートノードの下の要素
```
for item in root.iter('item'):
```
#タイトルのテキストコンテンツを取得し、項目サブ要素の下にあるサブ要素をリンクします##
```
 title = item.find('title').text
 link = item.find('link').text
```
#使用テキストコンテンツが URL リンクであるかどうかを判断するための正規表現

 is_link = re.match(r'^https?://(?:[-w.]|(?:%[da-fA-F]{2}))+$', link)

#タイトルとリンクを出力##

 if is_link:
     print('标题:', title)
     print('链接:', link)

import xml.etree.ElementTree as ET
import re

xml_string = '''
<root>
    <item>
        <title>百度</title>
        <link>https://www.baidu.com</link>
    </item>
    <item>
        <title>谷歌</title>
        <link>https://www.google.com</link>
    </item>
    <item>
        <title>必应</title>
        <link>https://www.bing.com</link>
    </item>
</root>
'''

root = ET.fromstring(xml_string)

for item in root.iter('item'):
    title = item.find('title').text
    link = item.find('link').text
    is_link = re.match(r'^https?://(?:[-w.]|(?:%[da-fA-F]{2}))+$', link)
    
    if is_link:
        print('标题:', title)
        print('链接:', link)

4. 実行して結果を出力します

上記のコードを実行すると、次の結果が得られます:

标题: 百度
链接: https://www.baidu.com
标题: 谷歌
链接: https://www.google.com
标题: 必应
链接: https://www.bing.com

上記のコードは、XML ファイル内の URL とリンクの解析を実装します。、簡単な URL リンク形式の検証を実行します。この記事の導入により、Python を使用して XML ファイル内の URL とリンクを迅速かつ簡単に解析できるようになり、実際の開発でのさらなる処理と適用が容易になります。

概要:

この記事では、Python を使用して XML 内の URL とリンクを解析する方法を紹介します。xml.etree.ElementTree モジュールを使用すると、XML ファイルを簡単に解析し、XML ファイル内の URL を抽出できます。 . とリンク。同時に、正規表現を使用してリンク上の簡単な形式検証も実行しました。この記事が実際の開発における XML 解析作業に役立つことを願っています。

以上がPython を使用して XML 内の URL とリンクを解析するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python Baidu翻訳APIを使用した福建省翻訳の実装次の記事：Python Baidu翻訳APIを使用した福建省翻訳の実装

続きを見る