C# 문자열에서 비ASCII 문자를 효율적으로 제거
데이터 처리 및 유효성 검사를 수행하려면 문자열에서 ASCII가 아닌 문자를 제거해야 하는 경우가 많습니다. 이 문서에서는 이 작업을 수행하기 위해 정규식을 사용하는 간결한 C# 방법을 보여줍니다.
정규 표현식 솔루션
다음 코드 조각은 정규식을 사용하여 ASCII가 아닌 문자를 모두 제거합니다.
<code class="language-csharp">string s = "søme string"; s = Regex.Replace(s, @"[^\u0000-\u007F]+", string.Empty);</code>
Regex.Replace
은 패턴의 모든 항목을 빈 문자열로 대체하여 ASCII가 아닌 문자를 효과적으로 삭제합니다. 패턴을 분석해 보겠습니다.
^
: 부정 연산자, 일치를 반전시킵니다.u####-u####
: 유니코드 코드 포인트 범위를 지정합니다. u0000-u007F
은 ASCII 범위를 정의합니다.
: 이전 문자 클래스가 하나 이상 일치합니다.이 패턴은 ASCII 범위 밖의 모든 문자를 정확하게 대상으로 삼아 제거합니다.
정규식 설명
정규식은 다음과 같이 더 세분화될 수 있습니다.
[u0000-u007F]
: 하나 이상의 ASCII 문자와 일치합니다.[^...]
: 앞에 캐럿이 있는 대괄호(^
)는 부정 문자 클래스를 생성하여 지정된 범위 밖
string.Empty
: 대체 문자열입니다. 이 경우 일치하는 문자를 제거하는 빈 문자열입니다.이 정규식은 ASCII 문자만 남기고 문자열을 필터링하는 깔끔하고 효율적인 방법을 제공합니다.
위 내용은 C#의 문자열에서 ASCII가 아닌 문자를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!