這篇文章主要介紹了PHP實現機器學習之樸素貝葉斯演算法,結合實例形式詳細分析了樸素貝葉斯演算法的概念、原理及php實現技巧,需要的朋友可以參考下
本文實例講述了PHP實作機器學習之樸素貝葉斯演算法。分享給大家供大家參考,具體如下:
機器學習已經在我們的生活中變得隨處可見了。例如從你在家的時候溫控器開始工作到智慧型汽車以及我們口袋中的智慧型手機。機器學習看起來已經無所不在並且是一個非常值得探索的領域。但是什麼是機器學習呢?通常來說,機器學習就是讓系統持續的學習並且對新的問題進行預測。從簡單的預測購物商品到複雜的數位助理預測。
在這篇文章我將會使用樸素貝葉斯演算法Clasifier作為一個類別來介紹。這是一個簡單易於實施的演算法,並且可給出滿意的結果。但是這個演算法是需要一點統計的知識去理解的。在文章的最後部分你可以看到一些實例程式碼,甚至自己去嘗試自己做你的機器學習。
開始
那麼,這個Classifier是要用來實現什麼功能呢?其實它主要是用來判斷給定的語句是積極地還是消極的。例如,「Symfony is the best」是一個正面的語句,「No Symfony is bad」是一個負面的語句。所以在給定了一個語句之後,我想讓這個Classifier在我不給定一個新的規則的情況就回傳一個語句類型。
我為Classifier命名了一個相同名稱的類,並且包含一個guess方法。這個方法接受一個語句的輸入,並且會回傳這個語句是正面的還是負面的。這個類別就像下面這樣:
class Classifier { public function guess($statement) {} }
我更喜歡使用枚舉類型的類別而不是字串作為我的回傳值。我將這個枚舉類型的類別命名為Type,並且包含兩個常數:一個POSITIVE,一個NEGATIVE。這兩個常數將會當做guess方法的回傳值。
class Type { const POSITIVE = 'positive'; const NEGATIVE = 'negative'; }
初始化工作已經完成,接下來就是要寫我們的演算法進行預測了。
樸素貝葉斯
樸素貝葉斯演算法是基於一個訓練集合工作的,根據這個訓練集從而做出相應的預測。這個演算法運用了簡單的統計學以及一點數學去進行結果的計算。例如像下面四個文字組成的訓練集合:
語句 | 類型 |
Symfony is the best | Positive |
##PhpStorm is great | Positive |
#Iltar complains a lot# | 負片 |
##沒有Symfony 不好 | ###消極的##########
学习 在这个算法正式工作之前,它需要大量的历史信息作为训练集。它需要知道两件事:每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计,另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样: function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // 增加类型的词语统计 } $this->documents[$type]++; // 增加类型的语句统计 } 有了这个集合以后,现在这个算法就可以根据历史数据接受预测训练了。 定义 为了解释这个算法是如何工作的,几个定义是必要的。首先,让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P(Type)。它是以已知类型的数据的类型作为分子,还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止,这个方法可以将会命名为totalP,像下面这样: function totalP($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } 请注意,在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。 根据上面的训练集的例子,积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个,一共是4个数据所以就是(2+1)/(4+1)。 第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数,然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p: function p($word, $type) { $count = isset($this->words[$type][$word]) ? $this->words[$type][$word] : 0; return ($count + 1) / (array_sum($this->words[$type]) + 1); } 在本次的训练集中,“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次,所以结果就是(2+1)/(7+1)。 最后,这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来: function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } 准备工作都做好了,开始真正实施我们的计划吧! 预测 为了预测语句的类型,这个算法应该计算所给定语句的两个类型的概率。像上面一样,我们定义一个P(Type,sentence)。得出概率高的类型将会是Classifier类中算法返回的结果。 为了计算P(Type,sentence),算法当中将用到贝叶斯定理。算法像这样被定义:P(Type,sentence)= P(Type)* P(sentence,Type)/ P(sentence)。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。 那么算法在计算每一个相同语句的P(Tyoe,sentence),P(sentence)是保持一样的。这意味着算法就可以省略其他因素,我们只需要关心最高的概率而不是实际的值。计算就像这样:P(Type,sentence) = P(Type)* P(sentence,Type)。 最后,为了计算P(sentence,Type),我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话,它将会和P(word_1,Type)* P(word_2,Type)* P(word_3,Type)* .....*P(word_n,Type)是一样的。每一个词计算结果的概率使用了我们前面看到的定义。 好了,所有的都说完了,是时候在php中实际操作一下了: function guess($statement) { $words = $this->getWords($statement); // 得到单词 $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); //计算 P(Type) foreach ($words as $word) { $likelihood *= $this->p($word, $type); // 计算 P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } 这就是所有的工作,现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习: $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 所有的代码我已经上传到了GIT上,https://github.com/yannickl88/blog-articles/blob/master/src/machine-learning-naive-bayes/Classifier.php github上完整php代码如下: [], Type::NEGATIVE => []]; private $documents = [Type::POSITIVE => 0, Type::NEGATIVE => 0]; public function guess($statement) { $words = $this->getWords($statement); // get the words $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); // calculate P(Type) foreach ($words as $word) { $likelihood *= $this->p($word, $type); // calculate P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } public function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // increment the word count for the type } $this->documents[$type]++; // increment the document count for the type } public function p($word, $type) { $count = 0; if (isset($this->words[$type][$word])) { $count = $this->words[$type][$word]; } return ($count + 1) / (array_sum($this->words[$type]) + 1); } public function pTotal($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } public function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } } $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 结束语 尽管我们只进行了很少的训练,但是算法还是应该能给出相对精确的结果。在真实环境,你可以让机器学习成百上千的记录,这样就可以给出更精准的结果。你可以下载查看这篇文章(英文):朴素贝叶斯已经被证明可以给出情绪统计的结果。 而且,朴素贝叶斯不仅仅可以运用到文本类的应用。希望通过这篇文章可以拉近你和机器学习的一点点距离。 原文地址:https://stovepipe.systems/post/machine-learning-naive-bayes 您可能感興趣的文章:# |
以上是PHP實作機器學習之樸素貝葉斯演算法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!