Maison > Article > développement back-end > Comment résoudre le problème des caractères tronqués dans les fichiers HTML écrits en python (explication détaillée avec images et textes)
Problème de chinois tronqué lorsque Python écrit des fichiers HTML
Utilisez la fonction open pour écrire le code HTML exploré par le robot dans un fichier, parfois dans la console Il ne sera pas tronqué, mais le chinois dans le code HTML écrit dans le fichier est tronqué
Analyse de cas
Regardez le morceau de code suivant :
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w")as f: # 将爬取的页面 print(html) f.write(html)
ne semble avoir aucun problème, et il n'y aura pas de caractères chinois tronqués dans la sortie html de la console, mais dans le fichier html créé
Solution
Utilisez un paramètre de la méthode ouverte nommé encoding=" ", et ajoutez encoding="utf-8"
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w",encoding="utf-8")as f: # 将爬取的页面 print(html) f.write(html)
Résultats d'exécution
Merci d'avoir lu, j'espère que vous en bénéficierez beaucoup.
Cet article est reproduit à partir de : https://blog.csdn.net/qq_40147863/article/details/81746445
Tutoriel recommandé : "Tutoriel Python"
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!