ホームページ >ウェブフロントエンド >htmlチュートリアル >スキルを向上させるにはマスターする必要があります! lxmlセレクターのヒントとサポートされているセレクターのまとめ!
pip install lxml2. lxml セレクターの基本的な使用法 lxml セレクターの基本的な使用法lxml セレクターは非常にシンプルで、対応するモジュールをインポートしてセレクター オブジェクトを作成し、そのセレクター オブジェクトを使用してデータを抽出するだけです。 まず、lxml ライブラリと対応するモジュールをインポートします:
from lxml import etree次に、HTML または XML ドキュメントを解析し、セレクター オブジェクトを作成します:
# 解析HTML文档 html = ''' <html> <body> <div class="container"> <h1>标题1</h1> <p class="content">内容1</p> </div> <div class="container"> <h1>标题2</h1> <p class="content">内容2</p> </div> </body> </html> ''' # 创建选择器对象 selector = etree.HTML(html)次に、データを抽出するコンテナ オブジェクトを選択します。 lxml セレクターは XPath セレクターと CSS セレクターをサポートしていますので、その使い方を以下に紹介します。
、
//、
[]
# 提取h1标签的文本 titles = selector.xpath('//h1/text()') print(titles) # 输出:['标题1', '标题2'] # 提取p标签的属性class值 classes = selector.xpath('//p/@class') print(classes) # 输出:['content', 'content']
# #Select ID:
親子関係を選択: スペース
後続の兄弟関係を選択:
# 提取h1标签的文本 titles = selector.cssselect('h1') for title in titles: print(title.text) # 输出:标题1、标题2 # 提取p标签的属性class值 classes = selector.cssselect('p.content') for p in classes: print(p.get('class')) # 输出:content、content
3. lxml セレクターでサポートされるセレクターのリスト
# サポートされるセレクター##lxml セレクターには、XPath セレクターと CSS セレクターが含まれます。一般的に使用されるセレクターは次のとおりです: XPath セレクター:#/
: ルートノードを選択//
: すべてのノードを選択[]
: 条件付き選択 @
: 属性を選択 text()
: テキストを選択 ..
: 親ノードを選択
#CSS セレクター: # クラス セレクター:
.クラス名#父子関係: スペース
結論: 以上がスキルを向上させるにはマスターする必要があります! lxmlセレクターのヒントとサポートされているセレクターのまとめ!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。