在Python 中使用Unicode (UTF-8) 讀取和寫入檔案
在Python 中使用Unicode 字串時,必須了解Unicode 表示形式和文件編碼之間的相互作用。細微的誤解可能會導致意外結果,如以下範例所示:
<code class="python">ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8)</code>
輸出顯示字串的Unicode 表示形式與其UTF-8 編碼形式之間存在差異:
("u'Capit\xe1n'", "'Capit\xc3\xa1n'")
為了避免這種混亂,在讀寫時明確指定文件編碼至關重要。在Python 2.6及更高版本中,io模組提供了一個io.open函數,允許指定編碼:
<code class="python">import io f = io.open("test", mode="r", encoding="utf-8") f.read()</code>
透過這種方法,f.read()傳回一個解碼的Unicode物件:
u'Capit\xe1l\n\n'
在Python 3.x中,io.open函數是內建open函數的別名,它也支援encoding參數。另一種選擇是使用編解碼器模組:
<code class="python">import codecs f = codecs.open("test", "r", "utf-8") f.read()</code>
但是,請注意,混合 read() 和 readline() 可能會導致使用編解碼器模組時出現問題。透過在讀寫檔案時明確指定編碼,您可以確保 Unicode 字串能夠正確表示和解碼,從而避免潛在的陷阱。
以上是在 Python 中讀寫檔案時如何確保正確的 Unicode 表示?的詳細內容。更多資訊請關注PHP中文網其他相關文章!