이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다.
zipf 분포
라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf Law 를 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다.
를 사용하여 전통적인 의미에서 단어가 아닌 단어를 제거 할 것입니다. 예를 들어 Robotics_89, 40_pie_40 및 Bigmango와 일치하지 않습니다. "Bigmango"는 여러 대문자로 시작하기 때문에 일치하지 않습니다.
이 정규식은 기본적으로 문자 (캡 또는 소문자)로 시작하는 모든 단어와 최소 2 자, 9 자 이하의 문자를 찾도록 지시합니다. 다시 말해, 출력에 포함 된 단어 크기는 3 ~ 10 자입니다.
이 기사는 업데이트되었으며 Monty Shokeen의 기여를 포함합니다. Monty는 튜토리얼을 작성하고 새로운 JavaScript 라이브러리를 배우는 것을 좋아하는 풀 스택 개발자입니다.
words = re.findall(r'(\b[A-Za-z][a-z]{2,9}\b)', file_to_string)
위 내용은 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!