Python における文字列操作と Unicode エンコードの詳細な説明

ホームページ

バックエンド開発

Python チュートリアル

Python における文字列操作と Unicode エンコードの詳細な説明_

高洛峰

Feb 21, 2017 am 10:12 AM

実際、文字列もデータ型です。ただし、文字列はエンコードの問題があるという点で特殊です。以下の記事では、Python での文字列操作と Unicode エンコードに関する情報を中心に紹介していますので、必要な方はぜひ参考にしてみてください。

この記事では主に、Python での文字列操作と Unicode のエンコードに関する知識を紹介します。必要な方は、一緒に学んでください。

文字列型

str: Unicode 文字列。 '' または r'' を使用して構築された文字列はすべて str であり、一重引用符は二重引用符または三重引用符に置き換えることができます。どのように指定しても、Python の内部に保存される場合には違いはありません。 str：Unicode字符串。采用''或者r''构造的字符串均为str，单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定，在Python内部存储时没有区别。

bytes：二进制字符串。由于jpg等其他格式的文件不能用str进行显示，所以才用bytes来表示，bytes的每个字节为一个0-255的数字。如果打印的时候，Python会把能够用ASCII表示的部分显示为ASCII，这样方便阅读。bytes几乎支持除了格式化以外的所有str的方法，甚至包括了re模块

bytearray() ：二进制可原地变动的字符串。

utf-8编码范围

范围	字节数	存储格式
0x0000~0x007F (0 ~ 127)	1字节	0xxxxxxx
0x0080~0x07FF(128 ~ 2047)	2字节	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3字节	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5字节	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6字节	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

字节顺序标记BOM

BOM是byte order marker的缩写，

指定编码写入时的规则

Python在使用'utf-8'编码写入文件时不会写入BOM头，但是如果指定编码'utf-8-sig'则会迫使Python写入一个BOM头。

使用'utf-16-be'不会写入一个BOM头，但是采用'utf-16'则会写入一个BOM头。

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

读取时的规则

如果指定了正确的编码，那么BOM会忽略，否则BOM会显示为乱码或者返回异常。

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

编码与解码

chr和ord

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

把Unicode硬编码进字符串中。

'xhh'：用2位十六进制来表示一个字符

'uhhhh'：用4位十六进制来表示一个字符：

'Uhhhhhhhh'：用8位十六进制来表示一个字符

>>> s = 'pyx74hu4e2don' #'pyth中on'

str和bytes， bytearray进行转换

str.encode(encoding='utf-8')<br>

bytes(s,encoding='utf-8')<br>

bytes.decode(encoding='utf-8')<br>

str(B, encoding='utf-8')

bytearray(string, encoding='utf-8')

bytearray(bytes)

文档编码声明

Python默认使用utf-8编码。

# -*- coding: latin-1 -*-

bytes: バイナリ文字列。 jpg などの他の形式のファイルは str を使用して表示できないため、バイトの各バイトは 0 ～ 255 の数値で表されます。印刷する際、PythonはASCIIで表現できる部分をASCIIで表示してくれるので読みやすくなります。 bytes は、書式設定を除くほぼすべての str メソッドをサポートします。これには、再モジュール
bytearray() : を含め、その場で変更できるバイナリ文字列も含まれます。

utf-8 エンコード範囲

範囲	バイト数	保存形式
0x0000~0x007F (0 ~ 127)	1バイト	0xxxxxxx td >
0x0080~0x07FF(128 ~ 2047)	2 バイト	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3 バイト	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4 バイト	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5 ワードセクション	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6 バイト	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

🎜バイトオーダーマークBOM🎜🎜🎜🎜BOMはバイトオーダーマーカーの略称で、🎜🎜🎜エンコードを記述する際のルールを指定します🎜 🎜🎜Pythonはそうではありません「utf-8」エンコーディングを使用してファイルを書き込むときに BOM ヘッダーを書き込みますが、エンコーディング「utf-8-sig」を指定すると、Python に BOM ヘッダーの書き込みが強制されます。 🎜🎜🎜「utf-16-be」を使用すると BOM ヘッダーは書き込まれませんが、「utf-16」を使用すると BOM ヘッダーが書き込まれます。 🎜🎜🎜

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名，那么返回True
s.islower()
s.isupper()
s.istitle()

🎜🎜🎜🎜読み込み時のルール🎜🎜🎜正しいエンコーディングが指定されている場合はBOMは無視され、そうでない場合はBOMが文字化けして表示されるか、例外が返されます。 🎜🎜🎜rrreee🎜🎜🎜🎜エンコードとデコード🎜🎜🎜

🎜chr と ord🎜

🎜🎜rrreee🎜🎜

🎜Unicode を文字列にハードコードします。 🎜

🎜 'xhh': 16 進数 2 桁で文字を表現します。 🎜🎜🎜 'uhhhh': 16 進数 4 桁で文字を表現します。文字を表す🎜🎜🎜 >>> s = 'pyx74hu4e2don' #'pyth中上'🎜🎜🎜strとバイト、変換用のbytearray🎜🎜🎜🎜str。 encode(encoding='utf-8')🎜🎜🎜bytes(s,encoding='utf-8')🎜🎜🎜 bytes.decode(encoding='utf -8')🎜🎜🎜str(B, エンコーディング='utf-8')🎜🎜🎜bytearray(string, エンコーディング='utf-8') code>🎜🎜🎜<code>bytearray(bytes)🎜🎜🎜ドキュメントエンコーディングステートメント🎜🎜🎜🎜Pythonはデフォルトでutf-8エンコーディングを使用します。 🎜🎜🎜# -*-coding: latin-1 -*- : ドキュメントが latin-1 エンコーディングであると宣言されていることを示します。 🎜🎜🎜ヘルプ機能🎜🎜🎜🎜🎜rrreee🎜🎜🎜Pythonでの文字列操作とUnicodeのエンコードに関する詳細な記事については、PHP中国語Webサイトに注目してください。 🎜

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は？Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

HTMLを解析するために美しいスープを使用するにはどうすればよいですか？Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find（）、find_all（）、select（）、およびget_text（）などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案（SEL

Pythonの数学モジュール：統計Mar 09, 2025 am 11:40 AM

Pythonの統計モジュールは、強力なデータ統計分析機能を提供して、生物統計やビジネス分析などのデータの全体的な特性を迅速に理解できるようにします。データポイントを1つずつ見る代わりに、平均や分散などの統計を見て、無視される可能性のある元のデータの傾向と機能を発見し、大きなデータセットをより簡単かつ効果的に比較してください。このチュートリアルでは、平均を計算し、データセットの分散の程度を測定する方法を説明します。特に明記しない限り、このモジュールのすべての関数は、単に平均を合計するのではなく、平均（）関数の計算をサポートします。浮動小数点数も使用できます。ランダムをインポートしますインポート統計 fractiから

TensorflowまたはPytorchで深い学習を実行する方法は？Mar 10, 2025 pm 06:52 PM

この記事では、深い学習のためにTensorflowとPytorchを比較しています。関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。特に計算グラップに関して、フレームワーク間の重要な違い

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。