Python의 문자열에서 인쇄할 수 없는 문자 제거
Perl과 달리 Python에는 POSIX 정규식 클래스가 없기 때문에 감지하기가 어렵습니다. 정규식을 사용하여 인쇄할 수 없는 문자를 제거합니다.
그렇다면 Python에서 어떻게 이를 달성할 수 있습니까?
한 가지 접근 방식은 unicodedata 모듈을 활용하는 것입니다. unicodedata.category 함수는 유니코드 문자를 다양한 범주로 분류합니다. 예를 들어 Cc(컨트롤)로 분류된 문자는 인쇄할 수 없는 문자를 나타냅니다.
이 지식을 사용하여 모든 제어 문자와 일치하는 사용자 정의 문자 클래스를 구성할 수 있습니다.
<code class="python">import unicodedata import re import sys all_chars = (chr(i) for i in range(sys.maxunicode)) categories = {'Cc'} control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories) control_char_re = re.compile('[%s]' % re.escape(control_chars)) def remove_control_chars(s): return control_char_re.sub('', s)</code>
이 함수 입력 문자열에서 인쇄할 수 없는 모든 ASCII 문자를 효과적으로 제거합니다.
또는 Python의 내장 string.printable 메서드를 사용하여 인쇄할 수 없는 문자를 필터링할 수 있습니다. 그러나 이 방법은 유니코드 문자를 제외하므로 모든 사용 사례에 적합하지 않을 수 있습니다.
유니코드 문자를 처리하려면 다음과 같이 정규식에서 문자 클래스를 확장할 수 있습니다.
<code class="python">control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))</code>
이 확장 문자 클래스는 인쇄할 수 없는 일반적인 유니코드 문자와 함께 기본 제어 문자를 포함합니다.
remove_control_chars 함수를 적절하게 수정하면 ASCII 및 인쇄할 수 없는 유니코드 문자를 모두 성공적으로 처리할 수 있습니다.
위 내용은 Python의 문자열에서 인쇄할 수 없는 문자를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!