Maison  >  Article  >  développement back-end  >  méthode python pour déterminer l'encodage d'une page Web

méthode python pour déterminer l'encodage d'une page Web

高洛峰
高洛峰original
2017-02-25 13:35:131323parcourir

Lors du développement Web, nous sommes souvent confrontés à l'exploration et à l'analyse de pages Web, et différents langages peuvent compléter cette fonction. J'aime utiliser Python pour l'implémenter, car Python fournit de nombreux modules matures qui peuvent facilement implémenter l'exploration Web.

Cependant, vous rencontrerez des problèmes d'encodage lors du processus d'exploration. Aujourd'hui, nous allons voir comment déterminer l'encodage d'une page Web :
Le format d'encodage de nombreuses pages Web sur le site. Internet est différent d'une manière générale, GBK, GB2312, UTF-8, etc.
Après avoir obtenu les données de la page Web, nous devons d'abord juger de l'encodage de la page Web, puis nous pouvons convertir uniformément l'encodage du contenu capturé en un encodage que nous pouvons gérer pour éviter l'apparition de code tronqué. problèmes.

Ce qui suit présente deux méthodes pour évaluer l'encodage d'une page Web :

Résumé : La deuxième méthode est très précise lors de l'analyse de l'encodage d'une page Web, il est préférable d'utiliser la méthode suivante. module python pour analyser le contenu Précis, mais la méthode d'analyse des informations de méta-en-tête est moins précise.

Méthode 1 : Utiliser la méthode getparam du module urllib 

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

Méthode 2 : Utiliser le module chardet

#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

Ce qui précède représente l'intégralité du contenu de cet article. J'espère qu'il sera utile à l'apprentissage de chacun. J'espère également que tout le monde soutiendra le site Web PHP chinois.

Pour plus d'articles liés à la méthode python pour juger l'encodage des pages Web, veuillez faire attention au site Web PHP chinois !

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn