C# 문자열에서 비ASCII 문자를 효율적으로 제거
데이터 처리에는 종종 문자열 정리가 필요하며, 특히 레거시 시스템 호환성의 경우 ASCII가 아닌 문자를 제거하는 것이 일반적인 작업입니다. C#은 정규식을 사용하여 간단한 솔루션을 제공합니다.
정규표현식 접근
ASCII가 아닌 문자를 제거하는 가장 효율적인 방법은 Regex.Replace
방법을 사용하는 것입니다. 방법은 다음과 같습니다.
<code class="language-csharp">string inputString = "søme string with non-ASCII characters."; string cleanString = Regex.Replace(inputString, @"[^\u0000-\u007F]+", "");</code>
정규식 이해
정규식을 분석해 보겠습니다 [^u0000-u007F]
:
[^...]
: 이것은 부정된 문자 클래스입니다. 이는 "괄호 안에 없는 모든 문자와 일치합니다."u0000-u007F
: ASCII 문자(10진수 0-127)에 대한 유니코드 범위를 지정합니다.따라서 전체 표현식은 ASCII 범위를 벗어나는 하나 이상의 (
) 문자와 일치합니다.
방법설명
Regex.Replace
메서드는 inputString
에서 비ASCII 문자 시퀀스를 체계적으로 검색하고 이를 빈 문자열(""
)로 대체하여 효과적으로 제거합니다. 결과 cleanString
에는 ASCII 문자만 포함됩니다.
위 내용은 C#의 문자열에서 ASCII가 아닌 문자를 어떻게 제거할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!