ホームページ  >  記事  >  テクノロジー周辺機器  >  機械学習を使用して感情を分析する方法

機械学習を使用して感情を分析する方法

王林
王林転載
2023-04-11 16:49:032152ブラウズ

機械学習を使用して感情を分析する方法

感情分析にさまざまな機械学習アルゴリズムを使用し、各アルゴリズムの精度結果を比較して、どのアルゴリズムがこの問題に最も適しているかを判断しました。

感情分析は、自然言語処理 (NLP) の重要な内容です。感情とは、出来事、物体、状況、物事に対して私たちが抱く感情です。感情分析は、テキストから人間の感情を自動的に抽出する研究分野です。 90 年代初頭にはゆっくりと発展し始めました。

この記事では、感情分析に機械学習 (ML) を使用する方法と、さまざまな機械学習アルゴリズムの結果を比較する方法を説明します。この記事の目的は、アルゴリズムのパフォーマンスを向上させる方法を研究することではありません。

現在、私たちはペースの速い社会に住んでおり、あらゆる商品がオンラインで購入でき、誰もがオンラインで自分のコメントを投稿できます。また、一部の製品に対するオンラインでの否定的なレビューは会社の評判を傷つけ、それによって会社の売上に影響を与える可能性があります。したがって、企業が製品レビューを使用して顧客が本当に望んでいることを理解することが非常に重要になります。しかし、コメントデータが多すぎて、手動ですべてのコメントを一つ一つ見ることは不可能です。こうして感情分析が誕生しました。

次に、機械学習を使用して基本的な感情分析を実行するモデルを開発する方法を見てみましょう。

今すぐ始めましょう!

データの取得

最初のステップは、データ セットを選択することです。ツイートや映画レビューなど、公開されているレビューから選択できます。データセットには、ラベルと実際のテキスト セグメントという少なくとも 2 つの列が含まれている必要があります。

下の図は、選択したデータセットの一部を示しています。

Figure 1: Data sample

図 1: データ サンプル

次に、必要なライブラリをインポートします。上記のコードでわかるように、データを処理するために

NumPy

および Pandas ライブラリをインポートしました。その他のライブラリについては、使用する際に説明します。 データセットの準備ができ、必要なライブラリがインポートされました。次に、

Pandas

ライブラリを使用して、データセットをプロジェクトに読み取る必要があります。次のコードを使用して、データ セットを Pandas データ フレームに読み込みます。 DataFrame<pre class="brush:python;toolbar:false;">import pandas as pd import numpy as np from nltk.stem.porter import PorterStemmer import re import string</pre>データ処理

これで、データ セットがプロジェクトにインポートされました。次に、アルゴリズムがデータセットの特性をよりよく理解できるようにデータを処理します。まず、データセット内の列に名前を付けます。これは次のコードで行います:

sentiment_dataframe = pd.read_csv(“/content/drive/MyDrive/Data/sentiments - sentiments.tsv”,sep = ‘t’)

次に、

label

列を数値化します: negative コメントは 1 に置き換えられ、 肯定的な コメントは 0 に置き換えられます。下の画像は、基本的な変更後の sentiment_dataframe の値を示しています。

Figure 2: Data frame with basic modifications

図 2: 基本的な変更を加えたデータ フレーム

特性値と目標値の準備

次のステップ データの前処理です。機械学習アルゴリズムは数値データのみを理解/処理でき、テキストは理解できないため、これは非常に重要なステップです。そのため、この時点で文字列/テキストを数値データに変換するために特徴抽出が必要です。さらに、冗長で役に立たないデータは、トレーニングされたモデルを汚染する可能性があるため、削除する必要があります。このステップでは、ノイズの多いデータ、欠損値データ、矛盾したデータを削除します。

对于情感分析,我们在数据帧中添加特征文本的长度和标点符号计数。我们还要进行词干提取,即将所有相似词(如 “give”、“giving” 等)转换为单一形式。完成后,我们将数据集分为两部分:特征值 X 和 目标值 Y。

上述内容是使用以下代码完成的。下图显示了执行这些步骤后的数据帧。

Figure 3: Data frame after the division of the data set

Figure 3: Data frame after the division of the data set

def count_punct(text):
 count = sum([1 for char in text if char in string.punctuation])
 return round(count/(len(text) - text.count(“ “)),3)*100
 
tokenized_tweet = sentiment_dataframe[‘body_text’].apply(lambda x: x.split())
stemmer = PorterStemmer()
tokenized_tweet = tokenized_tweet.apply(lambda x: [stemmer.stem(i) for i in x])
for i in range(len(tokenized_tweet)):
 tokenized_tweet[i] = ‘ ‘.join(tokenized_tweet[i])
sentiment_dataframe[‘body_text’] = tokenized_tweet
sentiment_dataframe[‘body_len’] = sentiment_dataframe[‘body_text’].apply(lambda x:len(x) - x.count(“ “))
sentiment_dataframe[‘punct%’] = sentiment_dataframe[‘body_text’].apply(lambda x:count_punct(x))
X = sentiment_dataframe[‘body_text’]
y = sentiment_dataframe[‘label’]

特征工程:文本特征处理

我们接下来进行文本特征抽取,对文本特征进行数值化。为此,我们使用计数向量器CountVectorizer,它返回词频矩阵。

在此之后,计算数据帧 X 中的文本长度和标点符号计数等特征。X 的示例如下图所示。

Figure 4: Sample of final features

Figure 4: Sample of final features

使用的机器学习算法

现在数据已经可以训练了。下一步是确定使用哪些算法来训练模型。如前所述,我们将尝试多种机器学习算法,并确定最适合情感分析的算法。由于我们打算对文本进行二元分类,因此我们使用以下算法:

  • K-近邻算法(KNN)
  • 逻辑回归算法
  • 支持向量机(SVMs)
  • 随机梯度下降(SGD)
  • 朴素贝叶斯算法
  • 决策树算法
  • 随机森林算法

划分数据集

首先,将数据集划分为训练集和测试集。使用 ​​sklearn​​ 库,详见以下代码:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.20, random_state = 99)

我们使用 20% 的数据进行测试,80% 的数据用于训练。划分数据的意义在于对一组新数据(即测试集)评估我们训练的模型是否有效。

K-近邻算法

现在,让我们开始训练第一个模型。首先,我们使用 KNN 算法。先训练模型,然后再评估模型的准确率(具体的代码都可以使用 Python 的 ​​sklearn​​ 库来完成)。详见以下代码,KNN 训练模型的准确率大约为 50%。

from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
model.score (X_test,y_test)
0.5056689342403629
逻辑回归算法

逻辑回归模型的代码十分类似——首先从库中导入函数,拟合模型,然后对模型进行评估。下面的代码使用逻辑回归算法,准确率大约为 66%。

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit (X_train,y_train)
model.score (X_test,y_test)
0.6621315192743764
支持向量机算法

以下代码使用 SVM,准确率大约为 67%。

from sklearn import svm
model = svm.SVC(kernel=’linear’)
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6780045351473923
随机森林算法

以下的代码使用了随机森林算法,随机森林训练模型的准确率大约为 69%。

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6938775510204082
决策树算法

接下来,我们使用决策树算法,其准确率约为 61%。

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model = model.fit(X_train,y_train)
model.score(X_test,y_test)
0.6190476190476191
随机梯度下降算法

以下的代码使用随机梯度下降算法,其准确率大约为 49%。

from sklearn.linear_model import SGDClassifier
model = SGDClassifier()
model = model.fit(X_train,y_train)
model.score(X_test,y_test)
0.49206349206349204
朴素贝叶斯算法

以下的代码使用朴素贝叶斯算法,朴素贝叶斯训练模型的准确率大约为 60%。

from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6009070294784581

情感分析的最佳算法

接下来,我们绘制所有算法的准确率图。如下图所示。

Figure 5: Accuracy performance of the different algorithms

Figure 5: Accuracy performance of the different algorithms

可以看到,对于情感分析这一问题,随机森林算法有最佳的准确率。由此,我们可以得出结论,随机森林算法是所有机器算法中最适合情感分析的算法。我们可以通过处理得到更好的特征、尝试其他矢量化技术、或者使用更好的数据集或更好的分类算法,来进一步提高准确率。

既然,随机森林算法是解决情感分析问题的最佳算法,我将向你展示一个预处理数据的样本。在下图中,你可以看到模型会做出正确的预测!试试这个来改进你的项目吧!

Figure 6: Sample predictions made

図 6: 作成された予測のサンプル

以上が機械学習を使用して感情を分析する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。