>Java >정규식을 사용하여 유사한 텍스트 찾기

정규식을 사용하여 유사한 텍스트 찾기

王林
王林앞으로
2024-02-14 19:03:08826검색

php 편집기 Yuzi 정규식은 유사한 텍스트를 빠르게 찾는 데 도움이 되는 강력한 텍스트 일치 도구입니다. 문자열 처리, 데이터 추출 또는 입력 유효성 검사에서 정규식은 중요한 역할을 합니다. 유연성과 효율성 덕분에 복잡한 텍스트 작업을 보다 편리하게 처리할 수 있어 개발 효율성이 크게 향상됩니다. 초보자든 숙련된 개발자든 정규식을 익히는 것은 필수 기술입니다. 그 매력을 함께 알아보세요!

질문 내용

다른 PDF 문서에서 텍스트 목록을 식별했습니다. 이제 정규식을 사용하여 각 텍스트에서 일부 값을 추출해야 합니다. 내 패턴 중 일부는 다음과 같습니다.

으아아아

그런데 문제는 인식 후 일부 글자가 틀릴 수도 있다는 것입니다("0" 代替 "o""i" 代替 "l" 등). 그래서 내 패턴이 일치하지 않습니다.

jaro-winkler 또는 levenshtein 유사성과 같은 정규식을 사용하여 s0me 文本 my_value、一些其他文本 等文本中提取 my_value부터 시작하고 싶습니다.

이게 정말 멋져 보인다는 걸 알아요. 하지만 어쩌면 이 문제에 대한 해결책이 있을 수도 있습니다.

BTW Java를 사용하고 있지만 다른 언어의 솔루션도 허용됩니다

해결 방법

Python에서 regex 모듈을 사용하면 퍼지 매칭을 사용할 수 있습니다. 다음 정규식은 구문당 최대 2개의 오류를 허용합니다. 더 복잡한 오류 테스트(삽입, 대체 및 삭제)를 사용할 수 있습니다. 자세한 내용은 링크된 문서를 참조하세요.

으아아아

출력:

으르레어리

정규 표현 패턴 (?i)(somes*w*s*texts*)([^,]+)은 "일부 텍스트"와 유사한 구문 뒤에 쉼표 앞의 문자가 오는 것을 캡처하는 데 사용됩니다

위 내용은 정규식을 사용하여 유사한 텍스트 찾기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 stackoverflow.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제