Python における文字列操作と Unicode エンコードの詳細な説明-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python における文字列操作と Unicode エンコードの詳細な説明

高洛峰

Feb 23, 2017 pm 04:22 PM

この記事では主に、Python での文字列操作と Unicode のエンコードに関する知識を紹介します。必要な方は、一緒に学びに来てください。

文字列型

str: Unicode文字列。 '' または r'' を使用して構築された文字列はすべて str であり、一重引用符は二重引用符または三重引用符に置き換えることができます。どのように指定しても、Python の内部に保存される場合には違いはありません。 str：Unicode字符串。采用''或者r''构造的字符串均为str，单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定，在Python内部存储时没有区别。

bytes：二进制字符串。由于jpg等其他格式的文件不能用str进行显示，所以才用bytes来表示，bytes的每个字节为一个0-255的数字。如果打印的时候，Python会把能够用ASCII表示的部分显示为ASCII，这样方便阅读。bytes几乎支持除了格式化以外的所有str的方法，甚至包括了re模块

bytearray() ：二进制可原地变动的字符串。

utf-8编码范围

范围	字节数	存储格式
0x0000~0x007F (0 ~ 127)	1字节	0xxxxxxx
0x0080~0x07FF(128 ~ 2047)	2字节	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3字节	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5字节	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6字节	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

字节顺序标记BOM

BOM是byte order marker的缩写，

指定编码写入时的规则

Python在使用'utf-8'编码写入文件时不会写入BOM头，但是如果指定编码'utf-8-sig'则会迫使Python写入一个BOM头。

使用'utf-16-be'不会写入一个BOM头，但是采用'utf-16'则会写入一个BOM头。

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

读取时的规则

如果指定了正确的编码，那么BOM会忽略，否则BOM会显示为乱码或者返回异常。

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

编码与解码

chr和ord

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

把Unicode硬编码进字符串中。

'xhh'：用2位十六进制来表示一个字符

'uhhhh'：用4位十六进制来表示一个字符：

'Uhhhhhhhh'：用8位十六进制来表示一个字符

>>> s = 'pyx74hu4e2don' #'pyth中on'

str和bytes， bytearray进行转换

str.encode(encoding='utf-8')<br>

bytes(s,encoding='utf-8')<br>

bytes.decode(encoding='utf-8')<br>

str(B, encoding='utf-8')

bytearray(string, encoding='utf-8')

bytearray(bytes)

文档编码声明

Python默认使用utf-8编码。

# -*- coding: latin-1 -*-

bytes: バイナリ文字列。 jpg などの他の形式のファイルは str を使用して表示できないため、バイトの各バイトは 0 ～ 255 の数値で表されます。印刷する際、PythonはASCIIで表現できる部分をASCIIで表示してくれるので読みやすくなります。 bytes は、書式設定を除くほぼすべての str メソッドをサポートします。これには、再モジュール
bytearray() : を含め、その場で変更できるバイナリ文字列も含まれます。

utf-8 エンコード範囲

範囲	バイト数	保存形式
0x0000~0x007F (0 ~ 127)	1バイト	0xxxxxxx td >
0x0080~0x07FF(128 ~ 2047)	2 バイト	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3 バイト	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4 バイト	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5 ワードセクション	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6 バイト	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

バイトオーダーマークBOM

BOMはバイトオーダーマーカーの略称で、

🎜🎜エンコードを記述する際のルールを指定します🎜 🎜🎜Pythonはそうではありません「utf-8」エンコーディングを使用してファイルを書き込むときに BOM ヘッダーを書き込みますが、エンコーディング「utf-8-sig」を指定すると、Python に BOM ヘッダーの書き込みが強制されます。 🎜🎜🎜「utf-16-be」を使用すると BOM ヘッダーは書き込まれませんが、「utf-16」を使用すると BOM ヘッダーが書き込まれます。 🎜🎜🎜

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名，那么返回True
s.islower()
s.isupper()
s.istitle()

🎜🎜🎜🎜読み込み時のルール🎜🎜🎜正しいエンコーディングが指定されている場合はBOMは無視され、そうでない場合はBOMが文字化けして表示されるか、例外が返されます。 🎜🎜🎜rrreee🎜🎜🎜🎜エンコードとデコード🎜🎜🎜

🎜chr と ord🎜

🎜🎜rrreee🎜🎜

🎜Unicode を文字列にハードコードします。 🎜

🎜 'xhh': 16 進数 2 桁で文字を表現します。 🎜🎜🎜 'uhhhh': 16 進数 4 桁で文字を表現します。文字を表す🎜🎜🎜 >>> s = 'pyx74hu4e2don' #'pyth中上'🎜🎜🎜strとバイト、変換用のbytearray🎜🎜🎜🎜str。 encode(encoding='utf-8')🎜🎜🎜bytes(s,encoding='utf-8')🎜🎜🎜 bytes.decode(encoding='utf -8')🎜🎜🎜str(B, エンコーディング='utf-8')🎜🎜🎜bytearray(string, エンコーディング='utf-8') code>🎜🎜🎜<code>bytearray(bytes)🎜🎜🎜ドキュメントエンコーディングステートメント🎜🎜🎜🎜Pythonはデフォルトでutf-8エンコーディングを使用します。 🎜🎜🎜# -*-coding: latin-1 -*- : ドキュメントが latin-1 エンコーディングであると宣言されていることを示します。 🎜🎜🎜ヘルプ機能🎜🎜🎜🎜🎜rrreee🎜🎜🎜🎜🎜🎜Pythonでの文字列操作とUnicodeのエンコードに関する詳細な記事については、PHP中国語Webサイトに注目してください。 🎜🎜🎜🎜

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。