Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengalih keluar Ruang Tidak Pecah daripada Rentetan dalam Python?

Bagaimana untuk mengalih keluar Ruang Tidak Pecah daripada Rentetan dalam Python?

Susan Sarandon
Susan Sarandonasal
2024-11-04 21:46:02278semak imbas

How to Remove Non-Breaking Spaces from Strings in Python?

Mengalih keluar Ruang Tidak Terputus daripada Rentetan dalam Python

Apabila menghuraikan fail HTML menggunakan Beautiful Soup, anda mungkin menghadapi aksara Unicode xa0 yang mewakili ruang. Artikel ini membincangkan cara untuk mengalih keluar aksara ini dengan berkesan dalam Python 2.7 dan menukarnya menjadi ruang biasa.

Untuk menyelesaikan isu ini, cuma gantikan xa0 dengan u' ' seperti berikut:

<code class="python">string = string.replace(u'\xa0', u' ')</code>

The aksara xa0 mewakili ruang tidak pecah dalam pengekodan Latin1 (ISO 8859-1). Dengan menggunakan u' ' dan bukannya '', anda memastikan ia digantikan dengan ruang Unicode.

Apabila anda menemui aksara xc2 selepas menggunakan .encode(), ia menunjukkan Unicode telah dikodkan ke dalam UTF-8. xa0 diwakili oleh dua bait xc2xa0 dalam UTF-8.

Untuk memahami pengendalian Unicode dalam Python, rujuk dokumentasi di http://docs.python.org/howto/unicode.html. Ambil perhatian bahawa jawapan ini bermula pada tahun 2012; Python telah berkembang dan anda kini harus mempertimbangkan untuk menggunakan unicodedata.normalize untuk penormalan Unicode.

Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Ruang Tidak Pecah daripada Rentetan dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn