ホームページ >ウェブフロントエンド >htmlチュートリアル >BeautifulSoup_html/css_WEB-ITnose でのさまざまな HTML パーサーの比較と使用

BeautifulSoup_html/css_WEB-ITnose でのさまざまな HTML パーサーの比較と使用

WBOY
WBOYオリジナル
2016-06-24 11:38:231608ブラウズ

Beautiful Soup パーサーの比較

·Beautiful Soup は、Python に付属の標準ライブラリやその他多くのサードパーティ ライブラリ モジュールを含む、さまざまな HTML パーサーをサポートしています。その1つがlxml parserです。 lxml parserのインストールは以下の方法でインストールできます:

1) easy_install lxml 2) pip install lxml

また、Pythonのインストールについては、 easy_install と pip の 2 つのタイプがあります。

別の純粋な Python パーサーは、Web ブラウザーのように HTML ページを解析できる html5lib パーサーです。 html5lib は次の 2 つの方法でインストールできます。

1) easy_install html5lib 2) pip install html5lib


さまざまな HTML パーサーの長所と短所を比較してみましょう。

Python の html.parser

BeautifulSoup(markup,"html.parser")
python自体には

高速

互換性が高い(Python 2.7.3および3.2現在) 互換性はあまりない(Python 2.7 .3より前)または 3.2.2)lxml の HTML パーサー外部 C 依存関係html5libBeautifulSoup(markup, "html5lib ")1)互換性が非常に良い遅い外部Python依存lxml、
  • BeautifulSoup(markup,"lxml")
  • 速い

  • 良い互換性
  • 外部 C 依存関係
    lxmlの XML パーサー BeautifulSoup(マークアップ, " lxml-xml") BeautifulSoup(markup,"xml") 非常に高速
  • 現在サポートされている唯一の XML パーサー
  • 2) WebブラウザのようにHTMLページを解析できる
    3) 有効なHTML5を作成する
  • 速度を追求したい場合は、を使用することをお勧めします使用している Python バージョン 2.x が 2.7.3 より前の場合、または python3.x が 3.2.2 より前の場合は、Python の組み込み HTML パーサーが適応しないため、html5lib または lxml をインストールして使用する必要があります。これらの古いバージョンも同様です。

  • 著作権表示: この記事はブロガーによるオリジナルの記事であり、ブロガーの許可なく複製することはできません。
    声明:
    この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。