首頁  >  文章  >  後端開發  >  在 Python 中讀寫檔案時如何確保正確的 Unicode 表示?

在 Python 中讀寫檔案時如何確保正確的 Unicode 表示?

Barbara Streisand
Barbara Streisand原創
2024-11-05 16:13:02270瀏覽

How do I ensure correct Unicode representation when reading and writing files in Python?

在Python 中使用Unicode (UTF-8) 讀取和寫入檔案

在Python 中使用Unicode 字串時,必須了解Unicode 表示形式和文件編碼之間的相互作用。細微的誤解可能會導致意外結果,如以下範例所示:

<code class="python">ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)</code>

輸出顯示字串的Unicode 表示形式與其UTF-8 編碼形式之間存在差異:

("u'Capit\xe1n'", "'Capit\xc3\xa1n'")

為了避免這種混亂,在讀寫時明確指定文件編碼至關重要。在Python 2.6及更高版本中,io模組提供了一個io.open函數,允許指定編碼:

<code class="python">import io

f = io.open("test", mode="r", encoding="utf-8")
f.read()</code>

透過這種方法,f.read()傳回一個解碼的Unicode物件:

u'Capit\xe1l\n\n'

在Python 3.x中,io.open函數是內建open函數的別名,它也支援encoding參數。另一種選擇是使用編解碼器模組:

<code class="python">import codecs

f = codecs.open("test", "r", "utf-8")
f.read()</code>

但是,請注意,混合 read() 和 readline() 可能會導致使用編解碼器模組時出現問題。透過在讀寫檔案時明確指定編碼,您可以確保 Unicode 字串能夠正確表示和解碼,從而避免潛在的陷阱。

以上是在 Python 中讀寫檔案時如何確保正確的 Unicode 表示?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn