Heim  >  Artikel  >  Backend-Entwicklung  >  Wie verwende ich CountVectorizer in Pythons sklearn?

Wie verwende ich CountVectorizer in Pythons sklearn?

WBOY
WBOYnach vorne
2023-05-07 23:58:061768Durchsuche

Einführung

Offizielle Dokumentation von CountVectorizer.

Vektorisieren Sie eine Dokumentensammlung in eine Zählmatrix.

Wenn Sie kein A-priori-Wörterbuch bereitstellen und keinen Analysator zur Merkmalsauswahl verwenden, entspricht die Anzahl der Merkmale dem durch die Analyse der Daten ermittelten Wortschatz.

Datenvorverarbeitung

Zwei Methoden: 1. Sie können es ohne Wortsegmentierung direkt in das Modell einfügen. 2. Sie können den chinesischen Text zuerst segmentieren.

Der durch die beiden Methoden erzeugte Wortschatz wird sehr unterschiedlich sein. Spezifische Demonstrationen werden später gegeben.

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废,振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

Wie verwende ich CountVectorizer in Pythons sklearn?

Erstellen Sie das Modell

Trainieren Sie das Modell

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

Alle Vokabeln: model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

Vokabeln, die ohne Wortsegmentierung generiert wurden

Wie verwende ich CountVectorizer in Pythons sklearn?

Vokabeln, die nach der Wortsegmentierung generiert wurden

Wie verwende ich CountVectorizer in Pythons sklearn?

Zählmatrix :

Das obige ist der detaillierte Inhalt vonWie verwende ich CountVectorizer in Pythons sklearn?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen