Maison >développement back-end >Tutoriel Python >Une introduction à l'utilisation de l'algorithme naïf de Bayes en python
Répétez pourquoi le titre est "utilisation" au lieu de "mise en œuvre" :
Tout d'abord, l'algorithme fourni par les professionnels est supérieur à celui que l'algorithme que nous écrivons est plus efficace et correct.
Deuxièmement, pour les personnes qui ne sont pas bonnes en mathématiques, il est très pénible d'étudier un tas de formules afin de mettre en œuvre l'algorithme.
Encore une fois, à moins que les algorithmes fournis par d'autres ne puissent répondre à vos besoins, il n'est pas nécessaire de « réinventer la roue ».
Passons aux choses sérieuses. Si vous ne connaissez pas l'algorithme bayésien, vous pouvez vérifier les informations pertinentes. Voici juste une brève introduction :
1. Formule bayésienne :
.P( A|B)=P(AB)/P(B)
2. Inférence bayésienne :
P(A|B)=P(A)×P( B|A )/P(B)
Exprimé en mots : ' s ' s ' s ' s ' s utiliser out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers ‐ ‐ ‐ ‐ ‐ et ‐ à Baye Le problème à résoudre par l'algorithme sri lankais est de savoir comment trouver la similarité, c'est-à-dire : la valeur de P(B|A)
3. Trois naïfs couramment utilisés Les algorithmes de Bayes sont fournis dans le package scikit-learn, comme suit Explication tour à tour : 1) Bayes naïf gaussien : supposons que l'attribut
/fonctionnalité obéit à la distribution normale (comme indiqué ci-dessous) , et est principalement utilisé pour les fonctionnalités numériques.
Depuis les données est livré dans le package scikit-learn, le code et la description sont les suivants :
, mais ce sont toutes des situations où P(x, y) peut être directement dessinédans le système de coordonnées. Comment déterminer les données dans l'exemple n'est pas encore clair. Cette partie sera ajoutée plus tard.
2) Distribution multinomiale Naive Bayes : souvent utilisée pour la classification de texte, la caractéristique est le mot et la valeur est le nombre de fois que le mot apparaît.
>>>from sklearn import datasets ##导入包中的数据 >>> iris=datasets.load_iris() ##加载数据 >>> iris.feature_names ##显示特征名字 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] >>> iris.data ##显示数据 array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............ >>> iris.data.size ##数据大小 ---600个 >>> iris.target_names ##显示分类的名字 array(['setosa', 'versicolor', 'virginica'], dtype='<U10') >>> from sklearn.naive_bayes import GaussianNB ##导入高斯朴素贝叶斯算法 >>> clf = GaussianNB() ##给算法赋一个变量,主要是为了方便使用 >>> clf.fit(iris.data, iris.target) ##开始分类。对于量特别大的样本,可以使用函数partial_fit分类,避免一次加载过多数据到内存 >>> clf.predict(iris.data[0].reshape(1,-1)) ##验证分类。标红部分特别说明:因为predict的参数是数组,data[0]是列表,所以需要转换一下 array([0]) >>> data=np.array([6,4,6,2]) ##验证分类 >>> clf.predict(data.reshape(1,-1)) array([2])
3) Bernoulli Naive Bayes : Chaque fonctionnalité est de type booléen, et le résultat est 0 ou 1, c'est-à-dire qu'il n'apparaît pas
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!