Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?

Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?

Linda Hamilton
Linda Hamiltonasal
2024-11-05 12:33:02343semak imbas

How do I read and write Unicode (UTF-8) text to files in Python?

Unicode (UTF-8) Membaca dan Menulis ke Fail dalam Python

Memahami Pengekodan dan Penyahkodan

Dalam Python 2.4, teks Unicode mesti ditukar kepada rentetan bait sebelum menulis ke fail. Kaedah encode('utf8') boleh digunakan untuk mengekod rentetan Unicode kepada UTF-8. Untuk membaca kandungan fail sebagai objek Unicode, kaedah nyahkod('utf8') boleh digunakan.

Fail Perduaan dan Teks

Adalah penting untuk membezakan antara fail binari dan teks. Fail binari menyimpan data secara membuta tuli, manakala fail teks menganggap pengekodan aksara tertentu (biasanya UTF-8). Apabila menulis objek Unicode pada fail, adalah penting untuk menentukan pengekodan yang dikehendaki untuk mengelakkan sebarang salah tafsir.

Modul io

Modul io dalam Python 2.6 dan kemudiannya menyediakan fungsi io.open, yang membolehkan menentukan pengekodan fail semasa pembukaan. Menggunakan io.open, seseorang boleh terus membaca kandungan fail sebagai objek Unicode:

<code class="python">import io
f = io.open("test", mode="r", encoding="utf-8")
text = f.read()  # text is a Unicode object</code>

Dalam Python 3.x, fungsi io.open ialah alias untuk fungsi terbuka terbina dalam, yang menyokong hujah pengekodan:

<code class="python">open("test", mode="r", encoding="utf-8")  # returns a Unicode-reading file object</code>

Modul codec

Pilihan lain ialah menggunakan fungsi terbuka daripada modul codec:

<code class="python">import codecs
f = codecs.open("test", "r", "utf-8")
text = f.read()  # text is a Unicode object</code>

Walau bagaimanapun, perlu diperhatikan bahawa menggunakan codecs.open boleh membawa kepada isu apabila mencampurkan operasi read() dan readline().

Peranan Pengekodan UTF-8

UTF-8 ialah pengekodan aksara serba boleh yang menyokong julat luas daripada aksara bahasa. Secara lalai, Python menganggap fail sebagai aliran binari. Menentukan pengekodan secara eksplisit membolehkan Python mentafsir kandungan fail sebagai Unicode dengan betul, mengelakkan isu dengan tafsiran aksara.

Kesimpulan

Memahami konsep pengekodan dan penyahkodan serta menggunakan alatan yang sesuai (io.open atau codecs.open) apabila bekerja dengan teks Unicode dalam fail adalah penting untuk manipulasi data yang lancar dalam Python.

Atas ialah kandungan terperinci Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn