중국어 단어 분할에 Python 사용-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

중국어 단어 분할에 Python 사용

高洛峰

Oct 18, 2016 am 09:18 AM

현재 제가 자주 사용하는 분사로는 말더듬 분사, NLPIR 분사 등이 있습니다.

최근 말더듬 분사를 사용하고 있는데, 꽤 사용하기 쉽습니다.

1. Zhiba 단어 분할 소개

중국어 단어 분할을 위해 Zhiba 단어 분할을 사용하면 세 가지 기본 구현 원칙이 있습니다.

Trie 트리 구조를 기반으로 한 효율적인 단어 그래프 스캐닝 문장에서 한자를 생성하기 가능한 모든 단어 형성 상황으로 구성된 방향성 비순환 그래프(DAG)

동적 프로그래밍을 사용하여 최대 확률 경로를 찾고 단어 빈도를 기준으로 최대 분할 조합을 찾습니다

미등록 단어의 경우 한자의 단어 형성 능력을 기반으로 한 HMM 모델 사용, Viterbi 알고리즘 사용

2. 설치 및 사용(Linux)

1. 도구 다운로드 패키지를 압축 해제하고 디렉토리에 들어가서 다음을 실행합니다: python setup.py install

힌트: a. 다운로드한 소프트웨어를 실행하기 전에 Readme를 읽어 보는 것이 좋습니다. (readme를 읽지 않으면 + Baidu를 직접 시도하면 여러 번 우회하게 됩니다.)

b. 설치 명령을 실행할 때 오류가 발생했습니다: 권한이 없습니다! (권한이 부족하여 이런 문제가 발생할 수 있습니다. 실행: sudo !! 여기서 "!!"는 이전 명령을 의미하며 여기서는 위 설치 명령을 나타냅니다.) sudo를 사용한 후에 정상적으로 실행됩니다.

2. 단어 분할을 위해 Jieba를 사용할 때 사용해야 하는 함수는 다음과 같습니다. jieba.cut(arg1, arg2);

을 사용하려면 다음 세 가지 사항만 이해하면 됩니다. a.cut 메서드는 두 개의 입력 매개 변수를 허용합니다. 첫 번째 매개 변수(arg1)는 분할해야 하는 문자열이고 arg2 매개 변수는 제어하는 데 사용됩니다. 단어 분할 모드.

단어 분할 모드는 두 가지 범주로 나뉩니다. 문장을 가장 정확한 형태로 잘라내는 기본 모드, 문장의 모든 단어를 스캔하는 전체 모드입니다. 검색 엔진에 적합한 단어로 변환될 수 있습니다

b. 분할할 문자열은 gbk 문자열, utf-8 문자열 또는 유니코드일 수 있습니다

파이썬을 사용하는 사람들은 주의해야 합니다. 인코딩 문제 Python은 ASCII 코드를 기반으로 문자를 처리합니다. ASCII에 속하지 않는 문자가 나타나면(예: 코드에 중국어 문자 사용) "ASCII 코덱이 문자를 인코딩할 수 없습니다."라는 오류 메시지가 나타납니다. 파일 상단에 명령문을 추가하려면: #! -*-coding:utf- 8 -*- Python 컴파일러에 다음을 알리십시오. "내 파일은 utf-8로 인코딩되었습니다. 디코딩하려면 utf-를 사용하십시오. 8." (여기서 이 명령은 반드시 파일 상단에 추가해야 한다는 점을 기억하세요. 상단에 없으면 인코딩 문제가 여전히 존재하며 해결되지 않습니다.) 인코딩 변환에 대해서는 블로그 게시물(ps)을 참고하시면 됩니다. : "import sys reload( sys) sys.setdefaultencoding('utf-8')"에 대한 개인적인 이해 이 문장은 "#! -*-coding:utf-8 -*- ")

에 해당합니다. c.jieba.cut에 의해 반환된 구조 이는 반복 가능한 생성기입니다. for 루프를 사용하여 단어 분할 후 얻은 각 단어(유니코드)를 얻거나 list(jieba.cut(...))를 사용하여 변환할 수 있습니다. 목록으로

3. 다음은 jieba에서 그림으로 제공하는 사용 방법입니다.

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", &#39; &#39;.join(seg_list)
  
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", &#39; &#39;.join(seg_list)

출력 결과 는 :

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  
Default Mode: 我/ 来到/ 北京/ 清华大学

3. 그 외 한자 단어 분할 기능

1. 맞춤 사전 추가 또는 관리

말더듬의 모든 사전 내용은 dict.txt에 저장되며 dict.txt의 내용을 계속 개선할 수 있습니다.

2. 키워드 추출

단어 분할 후 키워드의 TF/IDF 가중치를 계산하여 핵심 키워드를 추출합니다.

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 어레이에서 수행 할 수있는 일반적인 작업은 무엇입니까?Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousOperations : 1) SlicingExtractsSubsets, 2) 추가/확장 어드먼트, 3) 삽입 값 삽입 ATSpecificPositions, 4) retingdeletesElements, 5) 분류/ReversingChangesOrder 및 6) ListsompectionScreateNewListSbasedOnsistin

어떤 유형의 응용 프로그램에서 Numpy Array가 일반적으로 사용됩니까?Apr 26, 2025 am 12:13 AM

NumpyArraysareSentialplosplicationSefficationSefficientNumericalcomputationsanddatamanipulation. Theyarcrucialindatascience, MachineLearning, Physics, Engineering 및 Financeduetotheiribility에 대한 handlarge-scaledataefficivally. forexample, Infinancialanyaly

파이썬의 목록 위의 배열을 언제 사용 하시겠습니까?Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOveralistInpyThonWhendealingwithhomogeneousData, Performance-CriticalCode, OrinterFacingwithCcode.1) HomogeneousData : ArraysSaveMemorywithtypepletement.2) Performance-CriticalCode : arraysofferbetterporcomanceFornumericalOperations.3) Interf

모든 목록 작업은 배열에 의해 지원됩니까? 왜 또는 왜 그렇지 않습니까?Apr 26, 2025 am 12:05 AM

아니요, NOTALLLISTOPERATIONARESUPPORTEDBYARRARES, andVICEVERSA.1) ArraySDONOTSUPPORTDYNAMICOPERATIONSLIKEPENDORINSERTWITHUTRESIGING, WHITHIMPACTSPERFORMANCE.2) ListSDONOTEECONSTANTTIMECOMPLEXITEFORDITITICCESSLIKEARRAYSDO.

파이썬 목록에서 요소에 어떻게 액세스합니까?Apr 26, 2025 am 12:03 AM

ToaccesselementsInapyThonlist, 사용 인덱싱, 부정적인 인덱싱, 슬라이스, 오리 화.

어레이는 파이썬으로 과학 컴퓨팅에 어떻게 사용됩니까?Apr 25, 2025 am 12:28 AM

Arraysinpython, 특히 비밀 복구를위한 ArecrucialInscientificcomputing.1) theaRearedFornumericalOperations, DataAnalysis 및 MachinELearning.2) Numpy'SimplementationIncensuressuressurations thanpythonlists.3) arraysenablequick

같은 시스템에서 다른 파이썬 버전을 어떻게 처리합니까?Apr 25, 2025 am 12:24 AM

Pyenv, Venv 및 Anaconda를 사용하여 다양한 Python 버전을 관리 할 수 있습니다. 1) PYENV를 사용하여 여러 Python 버전을 관리합니다. Pyenv를 설치하고 글로벌 및 로컬 버전을 설정하십시오. 2) VENV를 사용하여 프로젝트 종속성을 분리하기 위해 가상 환경을 만듭니다. 3) Anaconda를 사용하여 데이터 과학 프로젝트에서 Python 버전을 관리하십시오. 4) 시스템 수준의 작업을 위해 시스템 파이썬을 유지하십시오. 이러한 도구와 전략을 통해 다양한 버전의 Python을 효과적으로 관리하여 프로젝트의 원활한 실행을 보장 할 수 있습니다.

표준 파이썬 어레이를 통해 Numpy Array를 사용하면 몇 가지 장점은 무엇입니까?Apr 25, 2025 am 12:21 AM

Numpyarrayshaveseveraladvantagesstandardpythonarrays : 1) thearemuchfasterduetoc 기반 간증, 2) thearemorememory-refficient, 특히 withlargedatasets 및 3) wepferoptizedformationsformationstaticaloperations, 만들기, 만들기

See all articles