>백엔드 개발 >파이썬 튜토리얼 >Python의 자연어 처리 예제: 감정 분석

Python의 자연어 처리 예제: 감정 분석

王林
王林원래의
2023-06-11 08:26:121836검색

Python의 자연어 처리 예제: 감정 분석

인공지능의 발달과 함께 자연어 처리(NLP)가 다양한 분야에서 점점 주목을 받고 있습니다. 그 중 감성분석은 NLP 적용의 중요한 방향이다. 감정 분석을 사용하면 제품, 서비스 또는 이벤트에 대한 사용자의 감정적 경향을 분석하여 기업이 소비자 요구를 더 잘 이해하고 마케팅 전략 수립을 촉진할 수 있습니다. 이번 글에서는 Python을 이용한 감성 분석의 예시를 소개하겠습니다.

  1. 필요한 라이브러리 설치

Python에서 감정 분석을 수행하려면 타사 라이브러리 NLTK(Natural Language Toolkit) 및 TwitterAPI를 사용해야 합니다. pip를 사용하여 다음 두 라이브러리를 설치할 수 있습니다.

pip install nltk
pip install TwitterAPI
  1. 데이터 사전 처리

감정 분석을 수행하기 전에 텍스트를 사전 처리해야 합니다. 텍스트를 소문자로 균일하게 변환하고 문장 부호, 숫자, 중지 단어 등과 같은 관련 없는 정보를 제거할 수 있습니다. 전처리 코드는 다음과 같습니다.

import re
from nltk.corpus import stopwords

def clean_text(text):
    text = text.lower() # 将文本转换成小写字母
    text = re.sub(r'[^ws]', '', text) # 去除标点符号
    text = re.sub(r'd+', '', text) # 去除数字
    stop_words = set(stopwords.words('english'))
    words = text.split()
    words = [w for w in words if w not in stop_words] # 去除停用词
    text = ' '.join(words)
    return text
  1. 감정 분석 모델

다음으로 감성 분석 모델을 구축해야 합니다. 감정 분석은 지도 학습이므로(즉, 레이블이 지정된 데이터가 필요함) 모델을 구축하려면 레이블이 지정된 훈련 데이터가 필요합니다. 여기에는 긍정적이거나 부정적인 감상 경향이 있는 1000개의 리뷰가 포함된 NLTK의 영화 리뷰 데이터세트가 사용되었습니다. 이 댓글은 신고되었습니다.

import nltk
from nltk.corpus import movie_reviews
import random

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

random.shuffle(documents)

훈련 데이터를 얻은 후 nltk의 NaiveBayesClassifier를 사용하여 Naive Bayes 분류기를 구축할 수 있습니다. 코드는 다음과 같습니다.

all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words.keys())[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[200:], featuresets[:200]
classifier = nltk.NaiveBayesClassifier.train(train_set)

이 분류기는 Naive Bayes 알고리즘을 기반으로 하며 훈련 데이터의 특성을 활용하여 분류합니다. 이 예에서는 단어 형태를 특징짓는 "contains (word)" 함수가 사용됩니다. 이 함수는 문서에 해당 단어가 포함되어 있는지 확인합니다.

  1. 감성 분석 애플리케이션

모델 구축이 완료되면 이를 활용하여 감성 분석을 수행할 수 있습니다. 이 예에서는 Twitter API를 사용하여 Twitter에서 트윗을 가져온 다음 해당 트윗에 대한 감정 분석을 수행합니다.

from TwitterAPI import TwitterAPI
import json

consumer_key = 'your consumer key'
consumer_secret = 'your consumer secret'
access_token_key = 'your access token key'
access_token_secret = 'your access token secret'

api = TwitterAPI(consumer_key,
                 consumer_secret,
                 access_token_key,
                 access_token_secret)

def analyze_tweet(tweet):
    tweet_text = tweet['text']
    tweet_clean = clean_text(tweet_text)
    tweet_features = document_features(tweet_clean.split())
    sentiment = classifier.classify(tweet_features)
    return sentiment

keywords = 'Trump'

for tweet in api.request('search/tweets', {'q': keywords, 'lang': 'en', 'count': 10}):
    sentiment = analyze_tweet(tweet)
    print(tweet['text'])
    print(sentiment)
    print('
')

이 코드 조각은 TwitterAPI를 사용하여 "Trump"라는 키워드가 포함된 최신 트윗 10개를 가져옵니다. 그런 다음 각 트윗에 대해 감정 분석을 수행하고 감정 경향을 출력합니다.

트위터 외에도 이 모델을 사용하여 다른 텍스트 데이터에 대한 감정 분석을 수행할 수도 있습니다.

결론

이 글에서는 Python의 감성 분석 예시를 소개합니다. 이 예에서는 훈련된 Naive Bayes 분류기를 사용하여 텍스트를 분류하며, 이는 텍스트의 감정적 경향을 결정하는 데 사용할 수 있습니다. 감정 분석은 마케팅, 소셜 미디어 모니터링 등의 분야에서 널리 사용될 수 있습니다.

위 내용은 Python의 자연어 처리 예제: 감정 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.