Python クローラーの xlml 解析ライブラリの包括的な理解-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーの xlml 解析ライブラリの包括的な理解

黄舟

Aug 08, 2017 am 11:33 AM

python爬虫類

以下のエディターは、Python クローラーの xlml 解析ライブラリ (総合的な理解) に関する記事をお届けします。編集者はこれがとても良いと思ったので、参考として共有します。編集者をフォローして一緒に見てみましょう

1.Xpath

XQuery と xpoint はどちらも xpath 式に基づいて構築されています

2. ノード

parent (親)、child (子)、brother (兄弟)、ancestor (祖先)、descendant (子孫)

3.ノードの選択

パス式

という名前の属性をすべて選択します

式	説明	パス式	結果
ノード名	このノード上のすべての子ノードを選択します	bookstore	のすべての子ノードを選択します本屋要素
/	ルートノードから選択	/bookstore	ルート要素bookstoreを絶対パスとして選択
//	選択したノードに一致する現在のノードから選択位置に関係なく、ドキュメントを選択します	//book	ドキュメント内の位置に関係なく、すべての本の子要素を選択します
。	現在のノードを選択します	bookstore//book	書店の子孫を選択します
..	現在のノードの親ノードを選択します
@	属性を選択	//@lang	lang

述語

述語は、特定のノードまたは指定された値を含むノードを

検索するために使用されます

述語は角括弧内に埋め込まれます

パス式結果/bookstore/book[ 1]本屋の子要素に属する最初のbook要素を選択します/bookstore/book[last()]本屋の子要素に属する最後のbook要素を選択します/bookstore/ book[last()-1]書店の子要素に属する最後から2番目のbook要素を選択します/bookstore/book[position()最初の2つを選択します書店要素の子要素//title[@lang='eng']は、eng/bookstore/book [price>35.0]の値を持つlang属性を持つすべてのtitle要素を選択します本屋要素の書籍要素をすべて選択し、価格値が 35.0 より大きい

不明なノード (ワイルドカード) を選択します

* 任意の要素ノードと一致します

@* 任意の属性ノードと一致します

node () 任意のタイプのノードに一致します

4.lxml の使用法

#!/usr/bin/python
#_*_coding:utf-8_*_

from lxml import etree

text=&#39;&#39;&#39;
<p>
 <ul>
  <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
  <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
  <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
  <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
  <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a>
 </ul>
</p>
  &#39;&#39;&#39;

# html=etree.HTML(text) #html对象，存储在地址中，有自动修正功能
# result=etree.tostring(html) #将html对象转化为字符串

html=etree.parse(&#39;hello.html&#39;)
# result=etree.tostring(html,pretty_print=True)
# print result
print type(html)
result= html.xpath(&#39;//li&#39;)
print result
print len(result)
print type(result)
print type(result[0])
print html.xpath(&#39;//li/@class&#39;) # 获取li标签下的所有的class
print html.xpath(&#39;//li/a[@href="link1.html" rel="external nofollow" rel="external nofollow" ]&#39;) #获取li标签下href为link1的<a>标签
print html.xpath(&#39;//li//span&#39;) #获取li标签下所有的span标签
print html.xpath(&#39;//li[last()-1]/a&#39;)[0].text #获取倒数第二个元素的内容

以上がPython クローラーの xlml 解析ライブラリの包括的な理解の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：重要な違いを理解しますApr 21, 2025 am 12:18 AM

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1）Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2）Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

Python vs. C：プロジェクトのためにどの言語を選択しますか？Apr 21, 2025 am 12:17 AM

PythonまたはCの選択は、プロジェクトの要件に依存します。1）迅速な開発、データ処理、およびプロトタイプ設計が必要な場合は、Pythonを選択します。 2）高性能、低レイテンシ、および緊密なハードウェアコントロールが必要な場合は、Cを選択します。

Pythonの目標に到達する：毎日2時間のパワーApr 20, 2025 am 12:21 AM

毎日2時間のPython学習を投資することで、プログラミングスキルを効果的に改善できます。 1.新しい知識を学ぶ：ドキュメントを読むか、チュートリアルを見る。 2。練習：コードと完全な演習を書きます。 3。レビュー：学んだコンテンツを統合します。 4。プロジェクトの実践：実際のプロジェクトで学んだことを適用します。このような構造化された学習計画は、Pythonを体系的にマスターし、キャリア目標を達成するのに役立ちます。

2時間の最大化：効果的なPython学習戦略Apr 20, 2025 am 12:20 AM

2時間以内にPythonを効率的に学習する方法は次のとおりです。1。基本的な知識を確認し、Pythonのインストールと基本的な構文に精通していることを確認します。 2。変数、リスト、関数など、Pythonのコア概念を理解します。 3.例を使用して、基本的および高度な使用をマスターします。 4.一般的なエラーとデバッグテクニックを学習します。 5.リストの概念を使用したり、PEP8スタイルガイドに従ったりするなど、パフォーマンスの最適化とベストプラクティスを適用します。

PythonとCのどちらかを選択：あなたに適した言語Apr 20, 2025 am 12:20 AM

Pythonは初心者やデータサイエンスに適しており、Cはシステムプログラミングとゲーム開発に適しています。 1. Pythonはシンプルで使いやすく、データサイエンスやWeb開発に適しています。 2.Cは、ゲーム開発とシステムプログラミングに適した、高性能と制御を提供します。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Python vs. C：プログラミング言語の比較分析Apr 20, 2025 am 12:14 AM

Pythonはデータサイエンスと迅速な発展により適していますが、Cは高性能およびシステムプログラミングにより適しています。 1. Python構文は簡潔で学習しやすく、データ処理と科学的コンピューティングに適しています。 2.Cには複雑な構文がありますが、優れたパフォーマンスがあり、ゲーム開発とシステムプログラミングでよく使用されます。

1日2時間：Python学習の可能性Apr 20, 2025 am 12:14 AM

Pythonを学ぶために1日2時間投資することは可能です。 1.新しい知識を学ぶ：リストや辞書など、1時間で新しい概念を学びます。 2。練習と練習：1時間を使用して、小さなプログラムを書くなどのプログラミング演習を実行します。合理的な計画と忍耐力を通じて、Pythonのコアコンセプトを短時間で習得できます。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

See all articles