Python의 문자열에서 잘림 방지 공백 제거
Beautiful Soup을 사용하여 HTML 파일을 구문 분석할 때 공백을 나타내는 xa0 유니코드 문자를 만날 수 있습니다. 이 문서에서는 Python 2.7에서 이러한 문자를 효과적으로 제거하고 일반 공백으로 변환하는 방법을 설명합니다.
이 문제를 해결하려면 다음과 같이 xa0을 u' '로 바꾸면 됩니다.
<code class="python">string = string.replace(u'\xa0', u' ')</code>
xa0 문자는 Latin1(ISO 8859-1) 인코딩에서 잘림 방지 공백을 나타냅니다. '' 대신 u' '를 사용하면 유니코드 공백으로 대체됩니다.
.encode()를 사용한 후 xc2 문자가 나타나면 유니코드가 UTF-8로 인코딩되었음을 나타냅니다. xa0은 UTF-8의 2바이트 xc2xa0으로 표시됩니다.
Python의 유니코드 처리를 이해하려면 http://docs.python.org/howto/unicode.html의 설명서를 참조하세요. 이 답변은 2012년으로 거슬러 올라갑니다. Python이 발전했으므로 이제 유니코드 정규화를 위해 unicodedata.normalize 사용을 고려해야 합니다.
위 내용은 Python의 문자열에서 잘림 방지 공백을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!