Python 웹 크롤러의 잘못된 코드 문제에 대한 솔루션-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 웹 크롤러의 잘못된 코드 문제에 대한 솔루션

高洛峰

Feb 11, 2017 pm 01:13 PM

python왜곡된 문자웹 크롤러

이 글은 주로 Python 웹 크롤러의 문자 깨짐 문제에 대한 해결책을 자세히 소개합니다. 관심 있는 친구들이 참고할 수 있습니다.

깨짐 문제를 해결하는 방법은 여러 가지가 있습니다. 크롤러의 문자 다양한 문제, 여기에는 중국어 왜곡 문자, 인코딩 변환뿐만 아니라 일본어, 한국어, 러시아어, 티베트어 등 일부 왜곡된 문자도 있습니다. 해결 방법이 동일하므로 여기에서 설명합니다.

웹 크롤러에서 잘못된 코드가 나타나는 이유

원본 웹페이지의 인코딩 형식이 크롤링 후의 인코딩 형식과 일치하지 않습니다.
소스 웹페이지가 gbk로 인코딩된 바이트 스트림이고 이를 가져온 후 프로그램이 직접 utf-8을 사용하여 이를 인코딩하고 저장 파일에 출력하면 소스 웹페이지에서 필연적으로 잘못된 코드가 발생합니다. 프로그램이 처리 인코딩을 직접 사용하여 일관성을 유지하면 이때 문자가 깨지는 일이 없으며 문자 인코딩이 통일되면 문자가 깨지는 일이 없습니다.

구별에 주의하세요

소스 네트워크 코드 A,
프로그램에서 직접 사용하는 코드 B,
문자 통합 변환을 위한 코드 C입니다.

문자 깨짐 해결 방법

소스 웹 페이지의 코드 A를 확인합니다. 코드 A는 웹 페이지의 세 위치에 있는 경우가 많습니다.

1.http 헤더의 콘텐츠 유형
서버 헤더를 얻는 사이트는 이를 사용하여 페이지 콘텐츠에 대한 일부 정보를 브라우저에 알릴 수 있습니다. Content-Type 항목은 "text/html; charset=utf-8"로 작성됩니다.

2.meta charset

3. 웹 페이지 헤더의 문서 정의

<script> 
if(document.charset){ 
 alert(document.charset+"!!!!"); 
 document.charset = &#39;GBK&#39;; 
 alert(document.charset); 
} 
else if(document.characterSet){ 
 alert(document.characterSet+"????"); 
 document.characterSet = &#39;GBK&#39;; 
 alert(document.characterSet); 
}</script>

원본 웹 페이지 인코딩을 얻을 때 이를 판단합니다. 3개가 차례로 데이터의 일부로 앞에서 뒤로 충분하며 우선순위도 마찬가지입니다.
위 세 가지 인코딩 정보는 없습니다. 일반적으로 chardet과 같은 타사 웹페이지 인코딩 지능형 식별 도구를 사용합니다.

설치: pip install chardet

Python chardet 문자 인코딩 판단

chardet을 사용하면 문자열/파일의 인코딩 감지를 쉽게 실현할 수 있습니다. HTML 페이지에 charset 태그가 있지만 때로는 올바르지 않습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.
chardet 인스턴스

import urllib 
rawdata = urllib.urlopen('http://www.php.cn/').read() 
import chardet 
chardet.detect(rawdata) 
{'confidence': 0.99, 'encoding': 'GB2312'}

chardet은 감지 기능을 직접 사용하여 주어진 문자의 인코딩을 감지할 수 있습니다. 함수 반환 값은 두 요소가 있는 사전입니다. 하나는 감지 신뢰성이고 다른 하나는 감지된 인코딩입니다.

자체 크롤러를 개발하는 과정에서 한자 인코딩을 어떻게 처리하나요?
다음은 모두 python2.7에 대한 것입니다. 처리하지 않으면 수집된 데이터가 깨집니다. html을 통합 utf-8 인코딩으로 처리하고 완료되지 않은 chardet 인코딩 인식 훈련에 속하는 windows-1252 인코딩을 만나게 됩니다

import chardet 
a='abc' 
type(a) 
str 
chardet.detect(a) 
{'confidence': 1.0, 'encoding': 'ascii'} 
 
 
a ="我" 
chardet.detect(a) 
{'confidence': 0.73, 'encoding': 'windows-1252'} 
a.decode('windows-1252') 
u'\xe6\u02c6\u2018' 
chardet.detect(a.decode('windows-1252').encode('utf-8')) 
type(a.decode('windows-1252')) 
unicode 
type(a.decode('windows-1252').encode('utf-8')) 
str 
chardet.detect(a.decode('windows-1252').encode('utf-8')) 
{'confidence': 0.87625, 'encoding': 'utf-8'} 
 
 
a ="我是中国人" 
type(a) 
str 
{'confidence': 0.9690625, 'encoding': 'utf-8'} 
chardet.detect(a) 
# -*- coding:utf-8 -*- 
import chardet 
import urllib2 
#抓取网页html 
html = urllib2.urlopen('http://www.jb51.net/').read() 
print html 
mychar=chardet.detect(html) 
print mychar 
bianma=mychar['encoding'] 
if bianma == 'utf-8' or bianma == 'UTF-8': 
 html=html.decode('utf-8','ignore').encode('utf-8') 
else: 
 html =html.decode('gb2312','ignore').encode('utf-8') 
print html 
print chardet.detect(html)

python 코드 파일 인코딩
py 파일은 기본적으로 ASCII 인코딩입니다. 중국어를 표시할 때 ASCII에서 시스템 기본 인코딩으로 변환됩니다. 이때 SyntaxError: Non-ASCII 문자 오류가 발생합니다. 코드 파일의 첫 번째 줄에 인코딩 지침을 추가해야 합니다:

# -*- coding:utf-8 -*- 
 
print '中文'

위와 같이 직접 입력한 문자열은 코드 파일에 따라 인코딩됩니다.
를 처리하기 위해 'utf -8' 유니코드 인코딩을 사용하는 경우 다음 방법:

s1 = u'English' #u는 정보를 유니코드 인코딩으로 저장하는 것을 의미합니다.

decode는 모든 문자열을 유니코드 형식으로 변환하는 방법입니다. 매개변수는 소스 문자열의 인코딩 형식을 나타냅니다.
encode는 문자열을 매개변수에 지정된 형식으로 변환하는 메서드이기도 합니다.

위 내용은 이 글의 전체 내용입니다. 모든 분들의 학습에 도움이 되기를 바랍니다.

Python 웹 크롤러의 문자 깨짐 문제를 해결하는 방법에 대한 더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

详细讲解Python之Seaborn（数据可视化）Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于Seaborn的相关问题，包括了数据可视化处理的散点图、折线图、条形图等等内容，下面一起来看一下，希望对大家有帮助。

详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于进程池与进程锁的相关问题，包括进程池的创建模块，进程池函数等等内容，下面一起来看一下，希望对大家有帮助。

Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于简历筛选的相关问题，包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容，下面一起来看一下，希望对大家有帮助。

归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于标准库总结的相关问题，下面一起来看一下，希望对大家有帮助。

分享10款高效的VSCode插件，总有一款能够惊艳到你！！Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件，能够让原本单薄的VS Code如虎添翼，开发效率顿时提升到一个新的阶段。

python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间，Guido van Rossum在家闲的没事干，为了跟朋友庆祝圣诞节，决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python，所以便把这门语言叫做python。

Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于数据类型之字符串、数字的相关问题，下面一起来看一下，希望对大家有帮助。

详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于numpy模块的相关问题，Numpy是Numerical Python extensions的缩写，字面意思是Python数值计算扩展，下面一起来看一下，希望对大家有帮助。

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Dreamweaver Mac版

시각적 웹 개발 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.