検索
ホームページバックエンド開発Python チュートリアルPython における文字列操作と Unicode エンコードの詳細な説明_

実際、文字列もデータ型です。ただし、文字列はエンコードの問題があるという点で特殊です。以下の記事では、Python での文字列操作と Unicode エンコードに関する情報を中心に紹介していますので、必要な方はぜひ参考にしてみてください。

この記事では主に、Python での文字列操作と Unicode のエンコードに関する知識を紹介します。必要な方は、一緒に学んでください。

文字列型

str: Unicode 文字列。 '' または r'' を使用して構築された文字列はすべて str であり、一重引用符は二重引用符または三重引用符に置き換えることができます。どのように指定しても、Python の内部に保存される場合には違いはありません。 str:Unicode字符串。采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定,在Python内部存储时没有区别。

bytes:二进制字符串。由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表示,bytes的每个字节为一个0-255的数字。如果打印的时候,Python会把能够用ASCII表示的部分显示为ASCII,这样方便阅读。bytes几乎支持除了格式化以外的所有str的方法,甚至包括了re模块

bytearray() :二进制可原地变动的字符串。

utf-8编码范围

范围 字节数 存储格式
0x0000~0x007F (0 ~ 127) 1字节 0xxxxxxx
0x0080~0x07FF(128 ~ 2047) 2字节 110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)  3字节 1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152) 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF 5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)  6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

字节顺序标记BOM

BOM是byte order marker的缩写,

指定编码写入时的规则

Python在使用'utf-8'编码写入文件时不会写入BOM头,但是如果指定编码'utf-8-sig'则会迫使Python写入一个BOM头。

使用'utf-16-be'不会写入一个BOM头,但是采用'utf-16'则会写入一个BOM头。

>>> open('h.txt','w',encoding='utf-8-sig').write('aaa')
3
>>> open('h.txt','rb').read()
b'\xef\xbb\xbfaaa'
>>> open('h.txt','w',encoding='utf-16').write('bbb')
3
>>> open('h.txt','rb').read()
b'\xff\xfeb\x00b\x00b\x00'
>>> open('hh.txt','w',encoding='utf-16-be').write('ccc')
3
>>> open('hh.txt','rb').read()
b'\x00c\x00c\x00c'
>>> open('h.txt','w',encoding='utf-8').write('ddd')
3
>>> open('h.txt','rb').read()
b'ddd'

读取时的规则

如果指定了正确的编码,那么BOM会忽略,否则BOM会显示为乱码或者返回异常。

>>> open('h.txt','r').read()
'锘縟dd'
>>> open('h.txt','r',encoding='utf-8-sig').read()
'ddd'

编码与解码

  • chr和ord

>>> ord('中') #20013
>>> chr(20013) #'中'

  • 把Unicode硬编码进字符串中。

       'xhh':用2位十六进制来表示一个字符

       'uhhhh':用4位十六进制来表示一个字符:

       'Uhhhhhhhh':用8位十六进制来表示一个字符

       >>> s = 'pyx74hu4e2don' #'pyth中on'

str和bytes, bytearray进行转换

str.encode(encoding='utf-8')<br>

bytes(s,encoding='utf-8')<br>

bytes.decode(encoding='utf-8')<br>

str(B, encoding='utf-8')

bytearray(string, encoding='utf-8')

bytearray(bytes)

文档编码声明

Python默认使用utf-8编码。

# -*- coding: latin-1 -*-

bytes: バイナリ文字列。 jpg などの他の形式のファイルは str を使用して表示できないため、バイトの各バイトは 0 ~ 255 の数値で表されます。印刷する際、PythonはASCIIで表現できる部分をASCIIで表示してくれるので読みやすくなります。 bytes は、書式設定を除くほぼすべての str メソッドをサポートします。これには、再モジュール
bytearray() : を含め、その場で変更できるバイナリ文字列も含まれます。

utf-8 エンコード範囲

範囲 バイト数 保存形式
0x0000~0x007F (0 ~ 127) 1バイト 0xxxxxxx td >
0x0080~0x07FF(128 ~ 2047) 2 バイト 110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535) 3 バイト 1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152) 4 バイト 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF 5 ワード セクション 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF) 6 バイト 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
🎜バイトオーダーマークBOM🎜🎜🎜🎜BOMはバイトオーダーマーカーの略称で、🎜🎜🎜エンコードを記述する際のルールを指定します🎜 🎜🎜Pythonはそうではありません「utf-8」エンコーディングを使用してファイルを書き込むときに BOM ヘッダーを書き込みますが、エンコーディング「utf-8-sig」を指定すると、Python に BOM ヘッダーの書き込みが強制されます。 🎜🎜🎜「utf-16-be」を使用すると BOM ヘッダーは書き込まれませんが、「utf-16」を使用すると BOM ヘッダーが書き込まれます。 🎜🎜🎜
sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名,那么返回True
s.islower()
s.isupper()
s.istitle()
🎜🎜🎜🎜読み込み時のルール🎜🎜🎜正しいエンコーディングが指定されている場合はBOMは無視され、そうでない場合はBOMが文字化けして表示されるか、例外が返されます。 🎜🎜🎜rrreee🎜🎜🎜🎜エンコードとデコード🎜🎜🎜
  • 🎜chr と ord🎜
🎜🎜rrreee🎜🎜
  • 🎜Unicode を文字列にハードコードします。 🎜
🎜 'xhh': 16 進数 2 桁で文字を表現します。 🎜🎜🎜 'uhhhh': 16 進数 4 桁で文字を表現します。文字を表す🎜🎜🎜 >>> s = 'pyx74hu4e2don' #'pyth中上'🎜🎜🎜strとバイト、変換用のbytearray🎜🎜🎜🎜str。 encode(encoding='utf-8')🎜🎜🎜bytes(s,encoding='utf-8')🎜🎜🎜 bytes.decode(encoding='utf -8')🎜🎜🎜str(B, エンコーディング='utf-8')🎜🎜🎜bytearray(string, エンコーディング='utf-8') code>🎜🎜🎜<code>bytearray(bytes)🎜🎜🎜ドキュメントエンコーディングステートメント🎜🎜🎜🎜Pythonはデフォルトでutf-8エンコーディングを使用します。 🎜🎜🎜# -*-coding: latin-1 -*- : ドキュメントが latin-1 エンコーディングであると宣言されていることを示します。 🎜🎜🎜ヘルプ機能🎜🎜🎜🎜🎜rrreee🎜🎜🎜Pythonでの文字列操作とUnicodeのエンコードに関する詳細な記事については、PHP中国語Webサイトに注目してください。 🎜
声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は?LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は?Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

HTMLを解析するために美しいスープを使用するにはどうすればよいですか?HTMLを解析するために美しいスープを使用するにはどうすればよいですか?Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find()、find_all()、select()、およびget_text()などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案(SEL

Pythonの数学モジュール:統計Pythonの数学モジュール:統計Mar 09, 2025 am 11:40 AM

Pythonの統計モジュールは、強力なデータ統計分析機能を提供して、生物統計やビジネス分析などのデータの全体的な特性を迅速に理解できるようにします。データポイントを1つずつ見る代わりに、平均や分散などの統計を見て、無視される可能性のある元のデータの傾向と機能を発見し、大きなデータセットをより簡単かつ効果的に比較してください。 このチュートリアルでは、平均を計算し、データセットの分散の程度を測定する方法を説明します。特に明記しない限り、このモジュールのすべての関数は、単に平均を合計するのではなく、平均()関数の計算をサポートします。 浮動小数点数も使用できます。 ランダムをインポートします インポート統計 fractiから

TensorflowまたはPytorchで深い学習を実行する方法は?TensorflowまたはPytorchで深い学習を実行する方法は?Mar 10, 2025 pm 06:52 PM

この記事では、深い学習のためにTensorflowとPytorchを比較しています。 関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。 特に計算グラップに関して、フレームワーク間の重要な違い

人気のあるPythonライブラリとその用途は何ですか?人気のあるPythonライブラリとその用途は何ですか?Mar 21, 2025 pm 06:46 PM

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。

Pythonでコマンドラインインターフェイス(CLI)を作成する方法は?Pythonでコマンドラインインターフェイス(CLI)を作成する方法は?Mar 10, 2025 pm 06:48 PM

この記事では、コマンドラインインターフェイス(CLI)の構築に関するPython開発者をガイドします。 Typer、Click、Argparseなどのライブラリを使用して、入力/出力の処理を強調し、CLIの使いやすさを改善するためのユーザーフレンドリーな設計パターンを促進することを詳述しています。

あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は?あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は?Apr 01, 2025 pm 11:15 PM

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

Pythonの仮想環境の目的を説明してください。Pythonの仮想環境の目的を説明してください。Mar 19, 2025 pm 02:27 PM

この記事では、Pythonにおける仮想環境の役割について説明し、プロジェクトの依存関係の管理と競合の回避に焦点を当てています。プロジェクト管理の改善と依存関係の問題を減らすための作成、アクティベーション、およびメリットを詳しく説明しています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。