이 기사의 예에서는 Python 문자 인코딩 판단 방법을 설명합니다. 참고용으로 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.
방법 1:
isinstance(s, str)를 사용하여 여부를 결정합니다. 일반 문자열입니다
isinstance(s, unicode)는 유니코드
또는
if type(str).__name__!="unicode": str=unicode(str,"utf-8") else: pass
방법 2 :
Python chardet 문자 인코딩 판단
chardet을 사용하면 문자열/파일 인코딩 감지를 쉽게 구현할 수 있습니다. 특히 중국어 웹 페이지의 경우 일부 페이지는 GBK/GB2312를 사용하고 일부 페이지는 UTF8을 사용합니다. 일부 페이지를 크롤링해야 하는 경우 HTML 페이지에 문자 집합 태그가 있지만 때로는 올바르지 않은 경우도 있습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.
chardet 인스턴스
>>> import urllib >>> rawdata = urllib.urlopen('http://www.google.cn/').read() >>> import chardet >>> chardet.detect(rawdata) {'confidence': 0.98999999999999999, 'encoding': 'GB2312'} >>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
chardet 설치
chardet을 다운로드한 후 chardet 압축 패키지의 압축을 풀고 chardet 폴더를 애플리케이션 디렉터리에 직접 배치한 다음 chardet 가져오기를 사용하여 chardet 사용을 시작합니다.
또는 setup.py 설치 파일을 사용하여 chardet을 Python 시스템 디렉터리에 복사합니다. 그러면 모든 Python 프로그램에서 chardet만 가져오면 됩니다.
python setup.py 설치 참조
chardet 공식 웹사이트: http://chardet.feedparser.org/
chardet 다운로드 페이지: http://chardet.feedparser.org/download /
Python 문자 인코딩 판단 방법에 관한 더 많은 글은 PHP 중국어 홈페이지를 주목해주세요!