如何使用Python的sklearn中的CountVectorizer？-Python教程-PHP中文网

首页

后端开发

Python教程

如何使用Python的sklearn中的CountVectorizer？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 07, 2023 pm 11:58 PM

pythonsklearncountvectorizer

简介

CountVectorizer官方文档。

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典，不使用分析器做某种特征选择，那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法：1.可以不分词直接投入模型；2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = [&#39;很少在公众场合手机外放&#39;,
        &#39;大部分人都还是很认真去学习的&#39;,
        &#39;他们会用行动来&#39;,
        &#39;无论你现在有多颓废，振作起来&#39;,
        &#39;只需要一点点地改变&#39;,
        &#39;你的外在和内在都能焕然一新&#39;]
#提取中文
text = [&#39; &#39;.join(re.findall(&#39;[\u4e00-\u9fa5]+&#39;,tt,re.S)) for tt in text]
#分词
text = [&#39; &#39;.join(jieba.lcut(tt)) for tt in text]
text

Python sklearn CountVectorizer如何使用

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇：model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

Python sklearn CountVectorizer如何使用

分词后生成的词汇

Python sklearn CountVectorizer如何使用

计数矩阵：X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

Python sklearn CountVectorizer如何使用

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

Python sklearn CountVectorizer如何使用

词汇索引：model.vocabulary_

print(vectorizer.vocabulary_)

Python sklearn CountVectorizer如何使用

以上是如何使用Python的sklearn中的CountVectorizer？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：亿速云。如有侵权，请联系admin@php.cn删除

Python vs. C：了解关键差异Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

Python vs.C：您的项目选择哪种语言？Apr 21, 2025 am 12:17 AM

选择Python还是C 取决于项目需求：1)如果需要快速开发、数据处理和原型设计，选择Python；2)如果需要高性能、低延迟和接近硬件的控制，选择C 。

达到python目标：每天2小时的力量Apr 20, 2025 am 12:21 AM

通过每天投入2小时的Python学习，可以有效提升编程技能。1.学习新知识：阅读文档或观看教程。2.实践：编写代码和完成练习。3.复习：巩固所学内容。4.项目实践：应用所学于实际项目中。这样的结构化学习计划能帮助你系统掌握Python并实现职业目标。

最大化2小时：有效的Python学习策略Apr 20, 2025 am 12:20 AM

在两小时内高效学习Python的方法包括：1.回顾基础知识，确保熟悉Python的安装和基本语法；2.理解Python的核心概念，如变量、列表、函数等；3.通过使用示例掌握基本和高级用法；4.学习常见错误与调试技巧；5.应用性能优化与最佳实践，如使用列表推导式和遵循PEP8风格指南。

在Python和C之间进行选择：适合您的语言Apr 20, 2025 am 12:20 AM

Python适合初学者和数据科学，C 适用于系统编程和游戏开发。1.Python简洁易用，适用于数据科学和Web开发。2.C 提供高性能和控制力，适用于游戏开发和系统编程。选择应基于项目需求和个人兴趣。

Python与C：编程语言的比较分析Apr 20, 2025 am 12:14 AM

Python更适合数据科学和快速开发，C 更适合高性能和系统编程。1.Python语法简洁，易于学习，适用于数据处理和科学计算。2.C 语法复杂，但性能优越，常用于游戏开发和系统编程。

每天2小时：Python学习的潜力Apr 20, 2025 am 12:14 AM

每天投入两小时学习Python是可行的。1.学习新知识：用一小时学习新概念，如列表和字典。2.实践和练习：用一小时进行编程练习，如编写小程序。通过合理规划和坚持不懈，你可以在短时间内掌握Python的核心概念。

Python与C：学习曲线和易用性Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

如何使用Python的sklearn中的CountVectorizer？

简介

数据预处理

构建模型

训练模型

所有词汇：model.get_feature_names()

计数矩阵：X.toarray()

词汇索引：model.vocabulary_

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

SublimeText3 英文版

记事本++7.3.1

SublimeText3汉化版

mPDF

禅工作室 13.0.1

热门话题