Python은 풍부한 과학 컴퓨팅 라이브러리와 데이터 처리 도구를 갖춘 간단하고 배우기 쉬운 프로그래밍 언어입니다. 그중 Naive Bayes 알고리즘은 고전적인 기계 학습 방법으로 Python 언어에서도 널리 사용됩니다. 이 기사에서는 예제를 사용하여 Python에서 Naive Bayes의 사용법과 단계를 소개합니다.
나이브 베이즈 알고리즘은 베이즈 정리를 기반으로 한 분류 알고리즘으로, 알려진 학습 데이터 세트의 특성을 통해 새로운 데이터의 분류 결과를 추론하는 것이 핵심입니다. 실제 응용 프로그램에서 Naive Bayes 알고리즘은 텍스트 분류, 스팸 필터링, 감정 분석과 같은 시나리오에 자주 사용됩니다.
나이브 베이즈 알고리즘의 특징은 각 특성이 서로 독립적이라고 가정한다는 것입니다. 이 가정은 실제 상황에서는 사실이 아닌 경우가 많기 때문에 나이브 베이즈 알고리즘을 "나이브"라고 부릅니다. 이러한 가정에도 불구하고 Naive Bayes는 짧은 텍스트 분류와 같은 문제에서 여전히 좋은 성능을 발휘합니다.
파이썬에서 나이브 베이즈 분류기를 사용하는 단계는 다음과 같이 요약할 수 있습니다.
2.1 데이터 준비
먼저 분류된 데이터가 되기 위한 훈련 데이터와 테스트를 준비해야 합니다. 이 데이터는 텍스트, 그림, 오디오 등의 형태일 수 있지만 컴퓨터가 이해할 수 있는 형태로 변환되어야 합니다. 텍스트 분류 문제에서는 텍스트를 벡터 표현으로 변환해야 하는 경우가 많습니다.
2.2 훈련 모델
다음으로 훈련 데이터 세트를 사용하여 Naive Bayes 분류기를 구축해야 합니다. Python에는 일반적으로 사용되는 세 가지 Naive Bayes 분류자가 있습니다.
텍스트 분류를 예로 들면 sklearn 라이브러리에서 제공하는 TfidfVectorizer 클래스를 사용하여 텍스트를 벡터 표현으로 변환하고 MultinomialNB 분류기를 훈련에 사용할 수 있습니다.
2.3 모델 테스트
훈련이 완료된 후 테스트 데이터 세트를 사용하여 모델 성능을 평가해야 합니다. 일반적으로 테스트 데이터 세트와 학습 데이터 세트는 독립적입니다. 테스트 중에는 훈련 데이터 세트의 데이터를 사용할 수 없다는 점에 유의해야 합니다. sklearn 라이브러리에서 제공하는 Accuracy_score 함수를 사용하여 모델의 정확도를 계산할 수 있습니다.
Naive Bayes 분류기의 실제 적용을 보여주기 위해 이 문서에서는 Naive Bayes 기반 텍스트 분류를 예로 들어 보겠습니다.
3.1 데이터 준비
먼저 인터넷에서 "스포츠 뉴스"와 "기술 뉴스"라는 두 개의 텍스트 데이터 세트를 찾습니다. 각 데이터 세트에는 1000개의 텍스트가 포함되어 있습니다. 두 데이터 세트를 서로 다른 폴더에 넣고 텍스트에 각각 "스포츠"와 "기술"이라는 레이블을 붙입니다.
3.2 분류를 위해 sklearn 라이브러리를 사용하세요
다음으로 분류를 위해 sklearn 라이브러리에서 제공하는 Naive Bayes 분류기를 사용하세요.
(1) 관련 라이브러리 가져오기
from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score import os
(2) 텍스트 데이터 및 해당 주석 읽기
def read_files(path): text_list = [] label_list = [] for root, dirs, files in os.walk(path): for file in files: file_path = os.path.join(root, file) with open(file_path, 'r', encoding='utf-8') as f: text = ''.join(f.readlines()) text_list.append(text) if '体育' in file_path: label_list.append('体育') elif '科技' in file_path: label_list.append('科技') return text_list, label_list
(3) 텍스트를 벡터 표현으로 변환
def text_vectorizer(text_list): vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(text_list) return X, vectorizer
(4) 모델 학습 및 정확도 반환
def train(text_list, label_list): X, vectorizer = text_vectorizer(text_list) y = label_list X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) clf = MultinomialNB() clf.fit(X_train, y_train) y_pred = clf.predict(X_test) acc = accuracy_score(y_test, y_pred) return clf, vectorizer, acc
(5 ) 테스트 model
def predict(clf, vectorizer, text): X = vectorizer.transform(text) y_pred = clf.predict(X) return y_pred[0]
3.3 결과 분석
위 코드를 실행하면 분류기의 정확도가 0.955임을 알 수 있습니다. 실제 분류를 수행할 때 예측 함수에 분류할 텍스트만 입력하면 해당 텍스트가 속한 카테고리를 반환합니다. 예를 들어 "iPhone 12가 드디어 출시되었습니다!"라는 텍스트를 입력하면 "기술" 카테고리로 돌아갑니다.
간단하고 효과적인 분류 알고리즘으로 Naive Bayes 알고리즘은 Python에서도 널리 사용됩니다. 이 기사에서는 Naive Bayes 분류기를 사용하는 방법과 단계를 소개하고 Naive Bayes를 기반으로 한 텍스트 분류를 예로 들어 분류기의 실제 적용을 보여줍니다. 실제 적용 과정에서는 분류기의 정확도를 높이기 위해 데이터 전처리, 특징 선택 등의 작업도 필요합니다.
위 내용은 Python의 Naive Bayes 예제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!