>  기사  >  백엔드 개발  >  Python 문자 인코딩 판단 방법

Python 문자 인코딩 판단 방법

高洛峰
高洛峰원래의
2017-03-01 13:21:161742검색

이 기사의 예에서는 Python 문자 인코딩 판단 방법을 설명합니다. 참고용으로 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.

방법 1:

isinstance(s, str)를 사용하여 여부를 결정합니다. 일반 문자열입니다
isinstance(s, unicode)는 유니코드

또는


if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass


인지 확인하는 데 사용됩니다.

방법 2 :

Python chardet 문자 인코딩 판단

chardet을 사용하면 문자열/파일 인코딩 감지를 쉽게 구현할 수 있습니다. 특히 중국어 웹 페이지의 경우 일부 페이지는 GBK/GB2312를 사용하고 일부 페이지는 UTF8을 사용합니다. 일부 페이지를 크롤링해야 하는 경우 HTML 페이지에 문자 집합 태그가 있지만 때로는 올바르지 않은 경우도 있습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.

chardet 인스턴스


>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。


chardet 설치

chardet을 다운로드한 후 chardet 압축 패키지의 압축을 풀고 chardet 폴더를 애플리케이션 디렉터리에 직접 배치한 다음 chardet 가져오기를 사용하여 chardet 사용을 시작합니다.

또는 setup.py 설치 파일을 사용하여 chardet을 Python 시스템 디렉터리에 복사합니다. 그러면 모든 Python 프로그램에서 chardet만 가져오면 됩니다.

python setup.py 설치 참조

chardet 공식 웹사이트: http://chardet.feedparser.org/
chardet 다운로드 페이지: http://chardet.feedparser.org/download /

Python 문자 인코딩 판단 방법에 관한 더 많은 글은 PHP 중국어 홈페이지를 주목해주세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.