비ASCII 문자 처리, 공백 및 마침표 보존
텍스트 파일을 처리할 때 비ASCII 문자를 제거해야 하는 경우가 종종 있습니다. 공백 및 마침표와 같은 특정 엔터티를 보존합니다. 제공된 Python 코드는 ASCII가 아닌 문자를 성공적으로 필터링하지만 실수로 공백과 마침표도 제거합니다.
이 문제를 해결하려면 필터링 프로세스에서 공백과 마침표를 명시적으로 제외하도록 onlyascii() 함수를 수정해야 합니다. . 업데이트된 버전은 다음과 같습니다.
<code class="python">def onlyascii(char): if char == ' ' or char == '.': return char elif ord(char) < 48 or ord(char) > 127: return '' else: return char</code>
이 개정된 onlyascii() 함수에서는 문자가 공백(' ')인지 마침표('.')인지 확인하고 그렇다면 반환합니다. 이렇게 수정하면 해당 엔터티가 필터링된 문자열에 유지됩니다.
업데이트된 onlyascii() 함수를 활용하려면 get_my_string() 함수를 수정하여 이 함수를 사용하여 문자를 필터링할 수 있습니다.
<code class="python">def get_my_string(file_path): f = open(file_path, 'r') data = f.read() f.close() filtered_data = filter(onlyascii, data) filtered_data = filtered_data.lower() return ''.join(filtered_data)</code>
join() 메서드는 filter() 함수에서 반환된 반복 가능 항목의 문자를 연결하여 문자열을 생성하는 데 사용됩니다.
이러한 수정을 구현하면 공백을 유지하면서 ASCII가 아닌 문자를 제거할 수 있습니다. 특정 프로젝트 요구 사항에 맞춰 텍스트 문자열에 마침표와 마침표를 추가하세요.
위 내용은 Python 텍스트 파일에서 ASCII가 아닌 문자를 제거하는 동안 공백과 마침표를 보존하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!