検索

Pythonエンコード形式変更問題

Apr 20, 2019 pm 02:27 PM
encodingpython

今日、私は Python クローラーを作成していましたが、クロールされた Web ページが突然異常になり、エラーが報告されました: UnicodeEncodeError: 'latin-1' コーデックは位置 41-50 の文字をエンコードできません: 序数が含まれていませんrange(256); UnicodeEncodeError: 'ascii' コーデックは序数で文字をエンコードできません。これは明らかなエンコード形式の問題です。実際、Python2 や 3 だけでなく、Java や C などの他のプログラミング言語でも、エンコード形式、特に ASCII、gbk、utf-8 とその他のエンコード間の変換で非常に頭の痛い問題が頻繁に発生します。 。そこで情報を検索し、実践的に練習し、このような方法をいくつか見つけました。

まず、Python のシステムエンコード形式と入出力形式を確認するにはどうすればよいでしょうか?

Pythonエンコード形式変更問題

>>> import sys
>>> sys.getdefaultencoding()# 系统默认编码格式
'UTF-8'
>>> sys.stdout.encoding# 输入输出格式
'US-ASCII'

この場合、現在のコマンド ラインの入出力エンコーディングが ASCII であることを意味するため、環境変数 LANG を手動で次のように変更する必要があります。 utf-8:

export LANG="en_US.UTF-8"

ubuntu 環境の場合は、上記のコマンド行を ~/.bashrc に追加して問題を完全に解決できます。追加後、次のコマンドを実行してください。有効にするか再起動してください。

source ~/.bashrc

または、別の方法は、Python のみに対応するエンコーディングを設定することです (上記と同じ、コマンド ラインを実行するか、bashrc ファイルを追加します):

PYTHONIOENCODING='utf_8'
export PYTHONIOENCODING

gbk エンコーディングの例:

Pythonエンコード形式変更問題

ascii エンコーディング テーブル図の部分:

Pythonエンコード形式変更問題

プログラミングするときは先頭行に忘れずに追加してください:

# -*- coding: utf-8 -*-

コマンドラインを使用してPythonエンコーディングを設定できますが、このセッションでのみ有効になります

>>>sys.getdefaultencoding()查看当前编码(若报错,先执行>>>import sys >>>reload(sys));
>>>sys.setdefaultencoding('utf8')设置编码

SYSモジュールをリロードしてプログラムコードにuft-8を設定することも可能ですが、 pycharm

import sys
reload(sys) 
sys.setdefaultencoding('utf8')
重启Python解释器,发现编码已被设置为utf8;
这是因为系统在Python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动加上解决代码,属于一劳永逸的解决方法。

でエラーが表示されます。 通常の開発では、トランスコーディング操作にデコードとエンコードを使用することは誰もが知っています。

Decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
Encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。

最新の Python 3 バージョンでは、文字列の型は str で、メモリ内では Unicode で表されます。1 文字は数バイトに対応します。

これをネットワーク ディスクに転送または保存するには、str をバイト単位のバイトに変換する必要があります。

Unicode で表現された Str は、encode() メソッドを使用して指定したバイトにエンコードできます。次に例を示します。

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: &#39;ascii&#39; codec can&#39;t encode characters in position 0-1: ordinal not in range(128)

文字列を操作するとき、str とバイトの変換が頻繁に発生します。文字化けを避けるために、str と bytes の変換には常に UTF-8 エンコードを使用する必要があります。

フレンドリーリンク【UTF-8エンコーディング変換ツール

python3ビデオチュートリアル

最初はエンコード形式が少ない コンピュータの普及と多くの国や組織での使用により、エンコード形式の人気はますます高まっていますが、国際的に受け入れられているのは依然として UTF-8 であるため、プログラミングの習慣を身につけて UTF-8 を使用する必要があります。エンコード形式がより頻繁に使用されます。エンコードの問題が発生した場合は、エンコード形式の一貫性を保つようにしてください。

以上がPythonエンコード形式変更問題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Python:自動化、スクリプト、およびタスク管理Python:自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間:勉強時間を最大限に活用するPythonと時間:勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python:ゲーム、GUIなどPython:ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1)ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2)GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C:比較されたアプリケーションとユースケースPython vs. C:比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画:現実的なアプローチ2時間のPython計画:現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

Python:主要なアプリケーションの調査Python:主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1)Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2)データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3)自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか?2時間でどのくらいのPythonを学ぶことができますか?Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は?プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は?Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール