文本分类是自然语言处理(NLP)任务之一,它旨在将文本归类到预定义的类别中。文本分类有很多实际应用,例如电子邮件过滤、垃圾邮件检测、情感分析和问答系统等。
使用python NLTK库完成文本分类的任务可以分为以下几个步骤:
下面是一个使用Python NLTK库完成文本分类的示例:
from nltk.corpus import stopWords from nltk.tokenize import word_tokenize from nltk.stem import PorterStemmer from nltk.classify import NaiveBayesClassifier # 加载数据 data = [("我爱北京", "积极"), ("我讨厌北京", "消极")] # 数据预处理 stop_words = set(stopwords.words("english")) stemmer = PorterStemmer() processed_data = [] for text, label in data: tokens = word_tokenize(text) filtered_tokens = [token for token in tokens if token not in stop_words] stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens] processed_data.append((stemmed_tokens, label)) # 特征提取 all_words = [word for sentence, label in processed_data for word in sentence] word_features = list(set(all_words)) def document_features(document): document_words = set(document) features = {} for word in word_features: features["contains({})".fORMat(word)] = (word in document_words) return features feature_sets = [(document_features(sentence), label) for sentence, label in processed_data] # 模型训练 classifier = NaiveBayesClassifier.train(feature_sets) # 模型评估 print(classifier.accuracy(feature_sets))
在上面的示例中,我们使用了朴素贝叶斯分类器对文本进行分类。我们可以看到,分类器的准确率达到了100%。
文本分类是一项具有挑战性的任务,但可以使用各种技术来提高分类器的准确率。例如,我们可以使用更多的特征来训练分类器,也可以使用更强大的分类器,如支持向量机或决策树等。
以上是【Python NLTK】文本分类,轻松搞定文本归类难题的详细内容。更多信息请关注PHP中文网其他相关文章!