Maison >développement back-end >Tutoriel Python >Comment supprimer les espaces insécables des chaînes en Python ?

Comment supprimer les espaces insécables des chaînes en Python ?

Susan Sarandon
Susan Sarandonoriginal
2024-11-04 21:46:02278parcourir

How to Remove Non-Breaking Spaces from Strings in Python?

Suppression des espaces insécables des chaînes en Python

Lors de l'analyse de fichiers HTML à l'aide de Beautiful Soup, vous pouvez rencontrer des caractères Unicode xa0 représentant des espaces. Cet article explique comment supprimer efficacement ces caractères dans Python 2.7 et les convertir en espaces réguliers.

Pour résoudre ce problème, remplacez simplement xa0 par u' ' comme suit :

<code class="python">string = string.replace(u'\xa0', u' ')</code>

Le Le caractère xa0 représente un espace insécable en codage Latin1 (ISO 8859-1). En utilisant u' ' au lieu de '', vous vous assurez qu'il est remplacé par un espace Unicode.

Lorsque vous rencontrez des caractères xc2 après avoir utilisé .encode(), cela indique que l'Unicode a été codé en UTF-8. xa0 est représenté par les deux octets xc2xa0 en UTF-8.

Pour comprendre la gestion Unicode en Python, reportez-vous à la documentation sur http://docs.python.org/howto/unicode.html. Notez que cette réponse remonte à 2012 ; Python a évolué et vous devriez maintenant envisager d'utiliser unicodedata.normalize pour la normalisation Unicode.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn