>  기사  >  백엔드 개발  >  Python의 문자열에서 인쇄할 수 없는 문자를 제거하는 방법은 무엇입니까?

Python의 문자열에서 인쇄할 수 없는 문자를 제거하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-22 06:57:02268검색

How to Remove Non-Printable Characters from Strings in Python?

Python의 문자열에서 인쇄할 수 없는 문자 제거

Perl과 달리 Python에는 POSIX 정규식 클래스가 없기 때문에 감지하기가 어렵습니다. 정규식을 사용하여 인쇄할 수 없는 문자를 제거합니다.

그렇다면 Python에서 어떻게 이를 달성할 수 있습니까?

한 가지 접근 방식은 unicodedata 모듈을 활용하는 것입니다. unicodedata.category 함수는 유니코드 문자를 다양한 범주로 분류합니다. 예를 들어 Cc(컨트롤)로 분류된 문자는 인쇄할 수 없는 문자를 나타냅니다.

이 지식을 사용하여 모든 제어 문자와 일치하는 사용자 정의 문자 클래스를 구성할 수 있습니다.

<code class="python">import unicodedata
import re
import sys

all_chars = (chr(i) for i in range(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)</code>

이 함수 입력 문자열에서 인쇄할 수 없는 모든 ASCII 문자를 효과적으로 제거합니다.

또는 Python의 내장 string.printable 메서드를 사용하여 인쇄할 수 없는 문자를 필터링할 수 있습니다. 그러나 이 방법은 유니코드 문자를 제외하므로 모든 사용 사례에 적합하지 않을 수 있습니다.

유니코드 문자를 처리하려면 다음과 같이 정규식에서 문자 클래스를 확장할 수 있습니다.

<code class="python">control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))</code>

이 확장 문자 클래스는 인쇄할 수 없는 일반적인 유니코드 문자와 함께 기본 제어 문자를 포함합니다.

remove_control_chars 함수를 적절하게 수정하면 ASCII 및 인쇄할 수 없는 유니코드 문자를 모두 성공적으로 처리할 수 있습니다.

위 내용은 Python의 문자열에서 인쇄할 수 없는 문자를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.