首頁 >後端開發 >Python教學 >在 Python 中讀寫檔案時如何確保正確的 Unicode 表示？

在 Python 中讀寫檔案時如何確保正確的 Unicode 表示？

How do I ensure correct Unicode representation when reading and writing files in Python?

在Python 中使用Unicode (UTF-8) 讀取和寫入檔案

在Python 中使用Unicode 字串時，必須了解Unicode 表示形式和文件編碼之間的相互作用。細微的誤解可能會導致意外結果，如以下範例所示：

<code class="python">ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)</code>

輸出顯示字串的Unicode 表示形式與其UTF-8 編碼形式之間存在差異：

("u'Capit\xe1n'", "'Capit\xc3\xa1n'")

為了避免這種混亂，在讀寫時明確指定文件編碼至關重要。在Python 2.6及更高版本中，io模組提供了一個io.open函數，允許指定編碼：

<code class="python">import io

f = io.open("test", mode="r", encoding="utf-8")
f.read()</code>

透過這種方法，f.read()傳回一個解碼的Unicode物件：

u'Capit\xe1l\n\n'

在Python 3.x中，io.open函數是內建open函數的別名，它也支援encoding參數。另一種選擇是使用編解碼器模組：

<code class="python">import codecs

f = codecs.open("test", "r", "utf-8")
f.read()</code>

但是，請注意，混合 read() 和 readline() 可能會導致使用編解碼器模組時出現問題。透過在讀寫檔案時明確指定編碼，您可以確保 Unicode 字串能夠正確表示和解碼，從而避免潛在的陷阱。

以上是在 Python 中讀寫檔案時如何確保正確的 Unicode 表示？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

看更多