찾다
백엔드 개발파이썬 튜토리얼파이썬을 사용하여 파일의 단어 주파수 계산

이 튜토리얼은 Python을 사용하여 단어 주파수를 분석하여 문서의 주요 주제를 신속하게 결정하는 방법을 보여줍니다. 단어 발생을 수동으로 계산하는 것은 지루합니다. 이 자동화 된 접근 방식은 프로세스를 단순화합니다 우리는 샘플 텍스트 파일 인 (다운로드하지만 엿보기!)를 사용하여 설명합니다. 목표는 단어 주파수를 기반으로 튜토리얼의 주제를 추측하는 것입니다.

정규 표현 이해 test.txt

이 프로세스는 정규 표현식 (Regex)을 사용합니다. 익숙하지 않은 경우, REGEX는 문자열 일치에 대한 검색 패턴을 정의하는 문자 시퀀스입니다 (예 : "찾기 및 교체"). 더 깊은 다이빙은 전용 Regex 튜토리얼을 참조하십시오.

프로그램 구축

파일 읽기 :

프로그램은 텍스트 파일을 문자열로 읽는 것으로 시작합니다.

정규 표현 : regex는 3 ~ 15 자로 단어를 필터링합니다.

    단어 주파수 :
  1. 사전은 단어 주파수를 추적합니다

    출력 :

    프로그램은 각 단어와 그 주파수를 인쇄합니다.
    document_text = open('test.txt', 'r')
    text_string = document_text.read().lower()
  2. 완료 프로그램

    여기에 결합 된 파이썬 코드가 있습니다 : 이 실행하면 단어 주파수 목록이 출력됩니다. 가장 빈번한 단어는 원래 튜토리얼의 주제에 대한 힌트입니다.

    match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)
  3. 더 큰 텍스트 파일 처리
  4. 더 큰 파일의 경우 주파수 사전을 정렬하면 가장 빈번한 단어를 단순화합니다. 이것은 가장 빈번한 단어가 먼저 나타나면서 정렬 된 목록을 출력합니다.

    공통 단어 제외
    frequency = {}
    for word in match_pattern:
        count = frequency.get(word, 0)
        frequency[word] = count + 1
  5. 분석을 개선하려면 블랙리스트를 사용하여 "the", ""및, "등과 같은 일반적인 단어를 제외하십시오.
  6. 이것은보다 집중된 분석을 제공합니다.

    이 강화 된 Python 스크립트는 텍스트를 분석하고 단어 빈도를 기반으로 주요 주제를 식별하는 강력한 방법을 제공합니다. 특정 요구에 맞게 블랙리스트 및 단어 길이 기준을 조정해야합니다. .

위 내용은 파이썬을 사용하여 파일의 단어 주파수 계산의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?May 03, 2025 am 12:11 AM

forhandlinglargedatasetsinpython, usenumpyarraysforbetterperformance.1) numpyarraysarememory-effic andfasterfornumericaloperations.2) leveragevectorization foredtimecomplexity.4) managemoryusage withorfications data

Python의 목록 대 배열에 대한 메모리가 어떻게 할당되는지 설명하십시오.Python의 목록 대 배열에 대한 메모리가 어떻게 할당되는지 설명하십시오.May 03, 2025 am 12:10 AM

inpython, listsusedyammoryAllocation과 함께 할당하고, whilempyarraysallocatefixedMemory.1) listsAllocatemememorythanneedInitiality.

파이썬 어레이에서 요소의 데이터 유형을 어떻게 지정합니까?파이썬 어레이에서 요소의 데이터 유형을 어떻게 지정합니까?May 03, 2025 am 12:06 AM

Inpython, youcansspecthedatatypeyfelemeremodelerernspant.1) usenpynernrump.1) usenpynerp.dloatp.ploatm64, 포모 선례 전분자.

Numpy 란 무엇이며 Python의 수치 컴퓨팅에 중요한 이유는 무엇입니까?Numpy 란 무엇이며 Python의 수치 컴퓨팅에 중요한 이유는 무엇입니까?May 03, 2025 am 12:03 AM

numpyissentialfornumericalcomputinginpythonduetoitsspeed, memory-efficiency 및 comperniveMathematicaticaltions

'연속 메모리 할당'의 개념과 배열의 중요성에 대해 토론하십시오.'연속 메모리 할당'의 개념과 배열의 중요성에 대해 토론하십시오.May 03, 2025 am 12:01 AM

contiguousUousUousUlorAllocationScrucialForraysbecauseItAllowsOfficationAndFastElementAccess.1) ItenableSconstantTimeAccess, o (1), DuetodirectAddressCalculation.2) Itimprovesceeffiency theMultipleementFetchespercacheline.3) Itsimplififiesmomorym

파이썬 목록을 어떻게 슬라이스합니까?파이썬 목록을 어떻게 슬라이스합니까?May 02, 2025 am 12:14 AM

slicepaythonlistisdoneusingthesyntaxlist [start : step : step] .here'showitworks : 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelemement.3) stepisincrementbetwetweentractionsoftortionsoflists

Numpy Array에서 수행 할 수있는 일반적인 작업은 무엇입니까?Numpy Array에서 수행 할 수있는 일반적인 작업은 무엇입니까?May 02, 2025 am 12:09 AM

NumpyAllowsForVariousOperationsOnArrays : 1) BasicArithmeticLikeadDition, Subtraction, A 및 Division; 2) AdvancedOperationsSuchasmatrixmultiplication; 3) extrayintondsfordatamanipulation; 5) Ag

파이썬으로 데이터 분석에 어레이가 어떻게 사용됩니까?파이썬으로 데이터 분석에 어레이가 어떻게 사용됩니까?May 02, 2025 am 12:09 AM

Arraysinpython, 특히 Stroughnumpyandpandas, areestentialfordataanalysis, setingspeedandefficiency

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구