집 >백엔드 개발 >파이썬 튜토리얼 >Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 자세한 소개

Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 자세한 소개

Y2J원래의: 2017-04-27 11:38:082346검색

이 글에서는 Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 관련 지식을 주로 소개합니다. 매우 좋은 참조 값을 가지고 있습니다. 아래 에디터로 살펴보겠습니다

왜 제목이 '구현'이 아닌 '사용'인지 다시 한번 말씀드리겠습니다.

우선 전문가가 제공하는 알고리즘이 더 좋습니다 우리가 직접 작성하는 알고리즘보다 효율성과 정확성 모두 높습니다.

둘째, 수학을 잘 못하는 사람들에게는 알고리즘을 구현하기 위해 수많은 공식을 공부하는 것이 매우 고통스럽습니다.

다시 말하지만, 다른 사람이 제공한 알고리즘이 귀하의 요구를 충족시키지 못하는 한 "바퀴를 재발명"할 필요가 없습니다.

다시 본론으로 돌아가서 베이지안 알고리즘을 모른다면 관련 정보를 확인해 보세요.

1. 🎜>

P(A|B)=P(AB)/P(B)

2. 베이지안 추론:

P(A|B)=P(A)×P(B|A)/P(B)

말로 설명:

사후 확률 = 사전 확률 × 유사성/정규화 상수

베이지안 알고리즘이 해결해야 할 문제는 유사성을 찾는 방법입니다. 즉, P(B|A)

3의 값. 일반적으로 사용되는 세 가지 Naive Bayes 알고리즘이 scikit-learn 패키지에 제공되며, 이에 대한 설명은 다음과 같습니다.

1) Gaussian Naive Bayes: 속성/특성이 정규분포(아래 그림 참조)를 따른다고 가정하며 주로 수치 특성에 사용됩니다.

scikit-learn 패키지에 포함된 데이터를 사용합니다. 코드와 설명은 다음과 같습니다.

>>>from sklearn import datasets ##导入包中的数据
>>> iris=datasets.load_iris() ##加载数据
>>> iris.feature_names  ##显示特征名字
 [&#39;sepal length (cm)&#39;, &#39;sepal width (cm)&#39;, &#39;petal length (cm)&#39;, &#39;petal width (cm)&#39;]
>>> iris.data   ##显示数据
 array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............
>>> iris.data.size  ##数据大小 ---600个
>>> iris.target_names  ##显示分类的名字 
 array([&#39;setosa&#39;, &#39;versicolor&#39;, &#39;virginica&#39;], dtype=&#39;<U10&#39;)
>>> from sklearn.naive_bayes import GaussianNB ##导入高斯朴素贝叶斯算法
>>> clf = GaussianNB()    ##给算法赋一个变量，主要是为了方便使用
>>> clf.fit(iris.data, iris.target)  ##开始分类。对于量特别大的样本，可以使用函数partial_fit分类，避免一次加载过多数据到内存

>>> clf.predict(iris.data[0].reshape(1,-1)) ##验证分类。标红部分特别说明：因为predict的参数是数组，data[0]是列表，所以需要转换一下
array([0])
>>> data=np.array([6,4,6,2])   ##验证分类
>>> clf.predict(data.reshape(1,-1))
array([2])

문제: 데이터가 정규 분포를 따르는지 어떻게 판단할 수 있나요? R 언어에는 관련 함수판단이 있거나 직접 그리기를 통해 볼 수 있지만 모두 좌표계에서 P(x, y)를

직접 그릴 수 있는 상황입니다. 예에 있는 데이터는요? 아직 파악하지 못했습니다. 이 부분은 나중에 추가하겠습니다.

2) 다항 분포 Naive Bayes: 텍스트 분류에 자주 사용되며 특징은 단어이고 값은 단어가 나타나는 횟수입니다.

##示例来在官方文档，详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(5, size=(6, 100)) ##返回随机整数值：范围[0,5) 大小6*100 6行100列
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB()
>>> clf.fit(X, y)
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True) 
>>> print(clf.predict(X[2]))
[3]

3) Bernoulli Naive Bayes: 각 특성은 Boolean 유형이며 결과는 0 또는 1, 즉 나타나지 않습니다.

##示例来在官方文档，详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(2, size=(6, 100))
>>> Y = np.array([1, 2, 3, 4, 4, 5])
>>> from sklearn.naive_bayes import BernoulliNB
>>> clf = BernoulliNB()
>>> clf.fit(X, Y)
BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True) 
>>> print(clf.predict(X[2]))
[3]

추가 참고 사항: 이 문서는 아직 완벽하지 않습니다. 또한 예제 1에 작성해야 할 몇 가지 지침이 있으며, 이는 점차적으로 개선될 예정입니다. 미래에.

위 내용은 Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 자세한 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python에서 연결리스트를 구현하는 코드에 대한 자세한 설명다음 기사：Python에서 연결리스트를 구현하는 코드에 대한 자세한 설명