Pythonの文字コード判定方法

高洛峰
高洛峰オリジナル
2017-03-01 13:21:161762ブラウズ

この記事の例ではPythonの文字エンコーディングの判定方法を説明しています。参考のために、次のようにみんなと共有してください:

方法 1:

isinstance(s, str) は、それが一般的な文字列であるかどうかを判断するために使用されます
isinstance(s, unicode) は、それが一般的な文字列であるかどうかを判断するために使用されますは unicode

または


if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass


方法 2:

Python のchardet 文字エンコード判定

chardet を使用すると文字列/ファイルエンコード検出を簡単に実装できます。特に中国語の Web ページでは、GBK/GB2312 を使用するページと、UTF8 を使用するページがあります。一部のページをクロールする必要がある場合、HTML ページには charset タグがありますが、それらが正しくない場合があります。そうすれば、シャルデは私たちを大いに助けてくれます。

chardet の例


>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。


chardet をインストールします

chardet をダウンロードした後、chardet 圧縮パッケージを解凍し、chardet フォルダーをアプリケーション ディレクトリに直接配置します。インポート chardet を使用して、chardet の使用を開始できます。 。

または、setup.py インストール ファイルを使用して chardet を Python システム ディレクトリにコピーし、すべての Python プログラムが chardet をインポートするだけで済むようにします。

python setup.py インストールリファレンス

chardet 公式サイト: http://chardet.feedparser.org/
chardet ダウンロードページ: http://chardet.feedparser.org/download/

Python 文字エンコード判定関連メソッドについては、PHP 中国語 Web サイトの記事にご注意ください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。