この記事の例ではPythonの文字エンコーディングの判定方法を説明しています。参考のために、次のようにみんなと共有してください:
方法 1:
isinstance(s, str) は、それが一般的な文字列であるかどうかを判断するために使用されます
isinstance(s, unicode) は、それが一般的な文字列であるかどうかを判断するために使用されますは unicode
または
if type(str).__name__!="unicode": str=unicode(str,"utf-8") else: pass
方法 2:
Python のchardet 文字エンコード判定
chardet を使用すると文字列/ファイルエンコード検出を簡単に実装できます。特に中国語の Web ページでは、GBK/GB2312 を使用するページと、UTF8 を使用するページがあります。一部のページをクロールする必要がある場合、HTML ページには charset タグがありますが、それらが正しくない場合があります。そうすれば、シャルデは私たちを大いに助けてくれます。
chardet の例
>>> import urllib >>> rawdata = urllib.urlopen('http://www.google.cn/').read() >>> import chardet >>> chardet.detect(rawdata) {'confidence': 0.98999999999999999, 'encoding': 'GB2312'} >>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
chardet をインストールします
chardet をダウンロードした後、chardet 圧縮パッケージを解凍し、chardet フォルダーをアプリケーション ディレクトリに直接配置します。インポート chardet を使用して、chardet の使用を開始できます。 。
または、setup.py インストール ファイルを使用して chardet を Python システム ディレクトリにコピーし、すべての Python プログラムが chardet をインポートするだけで済むようにします。
python setup.py インストールリファレンス
chardet 公式サイト: http://chardet.feedparser.org/
chardet ダウンロードページ: http://chardet.feedparser.org/download/
Python 文字エンコード判定関連メソッドについては、PHP 中国語 Web サイトの記事にご注意ください。