ホームページ  >  記事  >  バックエンド開発  >  Webページのエンコーディングを決定するPythonメソッド

Webページのエンコーディングを決定するPythonメソッド

高洛峰
高洛峰オリジナル
2017-02-25 13:35:131320ブラウズ

Web開発ではWebページのクローリングと分析が頻繁に行われますが、さまざまな言語でこの機能を完了できます。 Python には Web クローリングを簡単に実装できる成熟したモジュールが多数用意されているため、私は Python を使用して実装するのが好きです。

しかし、クロールプロセス中にエンコードの問題が発生する可能性があるため、今日は Web ページのエンコードを決定する方法を見ていきます:
インターネット上の多くの Web ページには、通常 GBK、GB2312、UTF などの異なるエンコード形式があります。 -8など。
Web ページのデータを取得したら、まず Web ページのエンコーディングを判断する必要があります。次に、キャプチャされたコンテンツのエンコーディングを、コード化けの問題の発生を回避するために処理できるエンコーディングに均一に変換できます。

以下では、Web ページのエンコードを判断する 2 つの方法を紹介します:

概要: 2 番目の方法は、Web ページのエンコードを分析する場合、コンテンツを分析するために Python モジュールを使用するのが最も正確です。メタヘッダー情報はあまり正確ではありません。

方法 1: urllib モジュールの getparam メソッドを使用する

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法 2: chardet モジュールを使用する

りー

以上ですこの記事の内容は、皆さんの学習に役立つことを願っています。また、皆さんが PHP 中国語 Web サイトをサポートしてくれることを願っています。

Python による Web ページのエンコーディングの判定方法に関連するその他の記事については、PHP 中国語 Web サイトに注目してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。