텍스트 마이닝은 방대한 양의 텍스트 데이터에서 알려지지 않은, 이해 가능한, 궁극적으로 사용 가능한 지식을 추출하는 동시에 이 지식을 사용하여 향후 참조를 위해 정보를 더 잘 구성하는 프로세스를 말합니다. 즉, 구조화되지 않은 텍스트에서 지식을 찾아내는 과정이다.
현재 텍스트 마이닝의 주요 7개 분야는
·검색 및 정보 검색 IR
·텍스트 클러스터링 : 클러스터링 방법을 사용하여 단어, 단편, 단락 또는 파일을 그룹화하고 분류
· 텍스트 분류: 데이터 마이닝을 사용하여 단편, 단락 또는 파일을 그룹화하고 분류합니다. 분류 방법을 기반으로 훈련된 레이블이 있는 인스턴스 모델
· 웹 마이닝: 인터넷에서 데이터 및 텍스트 마이닝, 네트워크의 크기와 크기에 특히 주의합니다.
· 정보 추출 IE: 비정형 텍스트에서 관련 사실과 관계를 식별하고 추출합니다. 비정형 또는 반정형 텍스트에서 정형 추출을 추출합니다. 정형 데이터 프로세스
· 자연어 처리 NLP: 문법과 의미론적 관점에서 언어의 본질적인 구조와 표현된 의미를 발견
중국어 텍스트 분류 기술 및 프로세스는 주로 다음 단계로 구성됩니다.
1. 전처리: HTML 태그 등 텍스트 노이즈 정보 제거, 텍스트 형식 변환, 문장 경계 감지
2. 중국어 단어 분할: 중국어 단어 분할을 사용하여 텍스트를 분할하고 중지 단어를 제거합니다.
3. 단어 벡터 공간 만들기: 텍스트 단어의 빈도를 계산하고 단어 벡터 공간을 생성합니다. text
4. 가중치 전략 - TF-IDF: 특징 단어를 발견하고 이를 문서 주제를 반영하는 특징으로 추출합니다.
5. 알고리즘을 사용하여 분류자 훈련
6. 분류 결과 평가
1. 전처리
a. 처리할 텍스트 범위를 선택
b. >
xml을 사용합니다. HTML 태그를 제거하는 라이브러리
d. 문장 경계 감지: 문장 끝 표시2. 중국어 단어 분할 단어 분할은 다시 결합하는 과정입니다. 연속된 단어 순서를 특정 사양에 따라 단어 순서로 나누는 것은 한자(문장)의 순서를 독립된 단어로 나누는 것입니다. 결국, 확률 이론은 이 문제를 해결했습니다. 단어 분할은 자연어 처리에서 가장 기본적이고 가장 낮은 모듈입니다. 모듈은 텍스트나 문장의 구조적 표현이 언어 처리의 핵심 작업입니다. 현재 텍스트의 구조적 표현은 단어 벡터 공간, 주제 모델, 종속 트리 표현으로 구분됩니다. 구문,RDF의 그래프 표현.
다음은 중국어 단어 샘플 코드입니다.# -*- 코딩: utf-8
-*-import os
import jieba
def savefile(savepath, content):
fp = open(savepath,"w",encoding='gb2312', 오류='무시')
fp.write(content)
fp.close()
def readfile(path):
fp = open(path,"r", 인코딩= 'gb2312', 오류='무시')
content = fp.read()
fp.close()
return content
# corpus_path =
"train_small/" # 분할되지 않은 단어 분류를 위한 예측 라이브러리 경로
# seg_path = "train_seg/" # 단어 분할 후 분류 코퍼스 경로 corpus_path = "test_small/" # 분할되지 않은 단어 분류를 위한 예측 라이브러리 경로 seg_path = "test_seg/" # 단어 분할 후 분류 코퍼스 pathcatelist=
os.listdir(corpus_path) # 변경된 디렉토리 아래의 모든 하위 디렉토리를 가져옵니다. for mydir in catelist:
class_path = corpus_path + mydir + "/" # 카테고리 하위 디렉토리를 철자합니다. 경로
seg_dir = seg_path + mydir + "/" # 단어 분할을 철자한 후 카테고리 디렉토리를 예측합니다.
if not os.path.exists(seg_dir): # 존재 여부, 존재하지 않으면 생성하세요.
os.makedirs(seg_dir)
file_list = os.listdir(class_path)
for file_pathin file_list:
fullname = class_path + file_path
content =
readfile(fullname).strip() # 파일 읽기content
content = content.replace("rn", "").strip() # 줄 바꿈 및 추가 공백 제거
content_seg = jieba .cut(content)
savefile(seg_dir + file_path, " ".join(content_seg))
인쇄("단어 분할 끝")
이후 단어 생성용 벡터 공간 모델의 편의를 위해 Scikit-Learn 라이브러리의 Bunch 데이터 구조를 사용하여 이러한 분할된 텍스트 정보를 텍스트 벡터 정보로 변환하고 객체화해야 합니다. 구체적인 코드는 다음과 같습니다.
import os import pickle from sklearn.datasets.base import Bunch #Bunch 类提供了一种key,value的对象形式 #target_name 所有分类集的名称列表 #label 每个文件的分类标签列表 #filenames 文件路径 #contents 分词后文件词向量形式def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content bunch=Bunch(target_name=[],label=[],filenames=[],contents=[]) # wordbag_path="train_word_bag/train_set.dat" # seg_path="train_seg/"wordbag_path="test_word_bag/test_set.dat"seg_path="test_seg/"catelist=os.listdir(seg_path) bunch.target_name.extend(catelist)#将类别信息保存到Bunch对象for mydir in catelist: class_path=seg_path+mydir+"/" file_list=os.listdir(class_path) for file_path in file_list: fullname=class_path+file_path bunch.label.append(mydir)#保存当前文件的分类标签 bunch.filenames.append(fullname)#保存当前文件的文件路径 bunch.contents.append(readfile(fullname).strip())#保存文件词向量 #Bunch对象持久化file_obj=open(wordbag_path,"wb") pickle.dump(bunch,file_obj) file_obj.close() print("构建文本对象结束")
3 . 벡터 공간 모델
텍스트는 저장 벡터 공간에서 더 높은 차원을 가지므로 저장 공간을 절약하고 검색 효율성을 높이기 위해 텍스트 분류 전에 특정 단어를 자동으로 필터링합니다. 이러한 단어 또는 불용 단어로 알려진 이 비활성화 표는 여기에서 다운로드할 수 있습니다.
4. 가중치 전략: TF-IDF 방법
한 기사에서 자주 등장하고 다른 기사에서는 거의 등장하지 않는 단어나 문구가 있으면 이 단어를 고려하거나 카테고리 구분이 좋은 문구입니다. 능력이 있고 분류에 적합합니다.
이 코드 부분을 제공하기 전에 먼저 단어 빈도와 역파일 빈도의 개념을 살펴보겠습니다.
단어 빈도(TF): 파일에서 특정 단어의 발생을 나타냅니다. 빈도. 이 숫자는 긴 문서에 편향되는 것을 방지하기 위해 단어 수를 정규화한 것입니다. 특정 문서에 있는 단어의 중요성은 다음과 같이 표현할 수 있습니다.
분자는 문서에 있는 단어 수입니다. 문서 분모는 문서 내 모든 단어의 출현 횟수의 합입니다.
역문서 빈도(IDF)는 단어의 일반적인 중요도를 나타내는 척도입니다. 특정 단어의 IDF는 다음과 같이 계산할 수 있습니다. 총 문서 빈도 숫자를 단어가 포함된 파일 수로 나눈 다음 몫의 로그를 취합니다.
|D|는 말뭉치에 있는 총 파일 수, j는 파일 수 해당 단어를 포함하고 해당 단어가 말뭉치에 없으면 분모는 0이 되므로 일반적으로 단어 빈도와 역방향 파일 빈도의 곱을 계산하기 위해 분모에 1
을 추가합니다. 특정 파일에서 높은 단어의 빈도와 전체 문서 모음에서 낮은 문서 빈도에서 단어의 빈도는 높은 가중치의 TF-IDF를 생성할 수 있으므로 TF-IDF는 일반적인 단어를 필터링하고 중요한 단어를 유지하는 경향이 있습니다. 코드는 다음과 같습니다.
import os from sklearn.datasets.base import Bunch import pickle#持久化类from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF向量转换类from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF向量生成类def readbunchobj(path): file_obj=open(path,"rb") bunch=pickle.load(file_obj) file_obj.close() return bunch def writebunchobj(path,bunchobj): file_obj=open(path,"wb") pickle.dump(bunchobj,file_obj) file_obj.close() def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content path="train_word_bag/train_set.dat"bunch=readbunchobj(path) #停用词stopword_path="train_word_bag/hlt_stop_words.txt"stpwrdlst=readfile(stopword_path).splitlines() #构建TF-IDF词向量空间对象tfidfspace=Bunch(target_name=bunch.target_name,label=bunch.label,filenames=bunch.filenames,tdm=[],vocabulary={}) #使用TfidVectorizer初始化向量空间模型vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5) transfoemer=TfidfTransformer()#该类会统计每个词语的TF-IDF权值 #文本转为词频矩阵,单独保存字典文件tfidfspace.tdm=vectorizer.fit_transform(bunch.contents) tfidfspace.vocabulary=vectorizer.vocabulary_ #创建词袋的持久化space_path="train_word_bag/tfidfspace.dat"writebunchobj(space_path,tfidfspace)
5. Naive Bayes 분류 모듈 사용
일반적으로 사용되는 텍스트 분류 방법에는 kNN 최근접 이웃 방법, Naive Bayes 알고리즘 및 지원 벡터 머신 알고리즘이 포함됩니다.
kNN 알고리즘은 원래 가장 단순하고 분류 정확도가 허용되지만 속도가 가장 빠릅니다
Naive Bayes 알고리즘은 정확도가 높고 짧은 텍스트 분류에 가장 좋은 영향을 미칩니다
서포트 벡터 머신 알고리즘의 장점은 선형 비분리성의 경우를 지원하고 정확도는 평균이라는 점입니다
上文代码中进行操作的都是训练集的数据,下面是测试集(抽取字训练集),训练步骤和训练集相同,首先是分词,之后生成词向量文件,直至生成词向量模型,不同的是,在训练词向量模型时需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成向量空间模型,代码如下:
import os from sklearn.datasets.base import Bunch import pickle#持久化类from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF向量转换类from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF向量生成类from TF_IDF import space_path def readbunchobj(path): file_obj=open(path,"rb") bunch=pickle.load(file_obj) file_obj.close() return bunch def writebunchobj(path,bunchobj): file_obj=open(path,"wb") pickle.dump(bunchobj,file_obj) file_obj.close() def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content #导入分词后的词向量bunch对象path="test_word_bag/test_set.dat"bunch=readbunchobj(path) #停用词stopword_path="train_word_bag/hlt_stop_words.txt"stpwrdlst=readfile(stopword_path).splitlines() #构建测试集TF-IDF向量空间testspace=Bunch(target_name=bunch.target_name,label=bunch.label,filenames=bunch.filenames,tdm=[],vocabulary={}) #导入训练集的词袋trainbunch=readbunchobj("train_word_bag/tfidfspace.dat") #使用TfidfVectorizer初始化向量空间vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5,vocabulary=trainbunch.vocabulary) transformer=TfidfTransformer(); testspace.tdm=vectorizer.fit_transform(bunch.contents) testspace.vocabulary=trainbunch.vocabulary #创建词袋的持久化space_path="test_word_bag/testspace.dat"writebunchobj(space_path,testspace)
下面执行多项式贝叶斯算法进行测试文本分类并返回精度,代码如下:
import pickle from sklearn.naive_bayes import MultinomialNB # 导入多项式贝叶斯算法包 def readbunchobj(path): file_obj = open(path, "rb") bunch = pickle.load(file_obj) file_obj.close() return bunch # 导入训练集向量空间trainpath = "train_word_bag/tfidfspace.dat"train_set = readbunchobj(trainpath) # d导入测试集向量空间testpath = "test_word_bag/testspace.dat"test_set = readbunchobj(testpath) # 应用贝叶斯算法 # alpha:0.001 alpha 越小,迭代次数越多,精度越高clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label) # 预测分类结果predicted = clf.predict(test_set.tdm) total = len(predicted);rate = 0 for flabel, file_name, expct_cate in zip(test_set.label, test_set.filenames, predicted): if flabel != expct_cate: rate += 1 print(file_name, ": 实际类别:", flabel, "-->预测分类:", expct_cate) # 精度print("error_rate:", float(rate) * 100 / float(total), "%")
6.分类结果评估
机器学习领域的算法评估有三个基本指标:
· 召回率(recall rate,查全率):是检索出的相关文档数与文档库中所有相关文档的比率,衡量的是检索系统的查全率
召回率=系统检索到的相关文件/系统所有相关的文件综述
· 准确率(Precision,精度):是检索出的相关文档数于检索出的文档总数的比率,衡量的是检索系统的查准率
准确率=系统检索到的相关文件/系统所有的检索到的文件数
准确率和召回率是相互影响的,理想情况下是二者都高,但是一般情况下准确率高,召回率就低;召回率高,准确率就低
· F-Score():计算公式为:
当=1时就是最常见的-Measure
三者关系如下:
具体评估代码如下:
import numpy as np from sklearn import metrics #评估def metrics_result(actual,predict): print("精度:{0:.3f}".format(metrics.precision_score(actual,predict))) print("召回:{0:0.3f}".format(metrics.recall_score(actual,predict))) print("f1-score:{0:.3f}".format(metrics.f1_score(actual,predict))) metrics_result(test_set.label,predicted) 中文文本语料 中文停用词文本集合 工程全部代码 原文链接
위 내용은 Python을 사용하여 작은 텍스트 분류 시스템 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!