Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?
Dalam Python 2.4, teks Unicode mesti ditukar kepada rentetan bait sebelum menulis ke fail. Kaedah encode('utf8') boleh digunakan untuk mengekod rentetan Unicode kepada UTF-8. Untuk membaca kandungan fail sebagai objek Unicode, kaedah nyahkod('utf8') boleh digunakan.
Adalah penting untuk membezakan antara fail binari dan teks. Fail binari menyimpan data secara membuta tuli, manakala fail teks menganggap pengekodan aksara tertentu (biasanya UTF-8). Apabila menulis objek Unicode pada fail, adalah penting untuk menentukan pengekodan yang dikehendaki untuk mengelakkan sebarang salah tafsir.
Modul io dalam Python 2.6 dan kemudiannya menyediakan fungsi io.open, yang membolehkan menentukan pengekodan fail semasa pembukaan. Menggunakan io.open, seseorang boleh terus membaca kandungan fail sebagai objek Unicode:
<code class="python">import io f = io.open("test", mode="r", encoding="utf-8") text = f.read() # text is a Unicode object</code>
Dalam Python 3.x, fungsi io.open ialah alias untuk fungsi terbuka terbina dalam, yang menyokong hujah pengekodan:
<code class="python">open("test", mode="r", encoding="utf-8") # returns a Unicode-reading file object</code>
Pilihan lain ialah menggunakan fungsi terbuka daripada modul codec:
<code class="python">import codecs f = codecs.open("test", "r", "utf-8") text = f.read() # text is a Unicode object</code>
Walau bagaimanapun, perlu diperhatikan bahawa menggunakan codecs.open boleh membawa kepada isu apabila mencampurkan operasi read() dan readline().
UTF-8 ialah pengekodan aksara serba boleh yang menyokong julat luas daripada aksara bahasa. Secara lalai, Python menganggap fail sebagai aliran binari. Menentukan pengekodan secara eksplisit membolehkan Python mentafsir kandungan fail sebagai Unicode dengan betul, mengelakkan isu dengan tafsiran aksara.
Memahami konsep pengekodan dan penyahkodan serta menggunakan alatan yang sesuai (io.open atau codecs.open) apabila bekerja dengan teks Unicode dalam fail adalah penting untuk manipulasi data yang lancar dalam Python.
Atas ialah kandungan terperinci Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!