php+mysql協同過濾演算法的實現-php教程-PHP中文網

首頁

後端開發

php教程

php+mysql協同過濾演算法的實現

巴扎黑

Aug 15, 2017 am 09:29 AM

phpphp+mysql實現

要实现协同过滤推荐算法，首先就要理解算法的核心思想和流程。该算法的核心思想可以概括为：若a,b喜欢同一系列的物品（暂时称b是a的邻居吧），则a很可能喜欢b喜欢的其他物品。算法的实现流程可以简单概括为：1.确定a有哪些邻居 2.通过邻居来预测a可能会喜欢哪种物品 3.将a可能喜欢的物品推荐给a。

算法核心的公式如下：

1.余弦相似度（求邻居）：

php+mysql協同過濾演算法的實現

2.预测公式（预测a可能会喜欢哪种物品）：

php+mysql協同過濾演算法的實現

仅从这两个公式我们就可以看出，仅仅是按照这两个公式进行计算，就需要进行大量的循环与判断，而且还涉及到排序的问题，就涉及到排序算法的选择与使用，这里我选快排，从网上copy了一段快排，直接用。总之实现起来很麻烦，在大数据情况下，更何谈效率。

首先建表：

DROP TABLE IF EXISTS `tb_xttj`;
CREATE TABLE `tb_xttj` (
  `name` varchar(255) NOT NULL,
  `a` int(255) default NULL,
  `b` int(255) default NULL,
  `c` int(255) default NULL,
  `d` int(255) default NULL,
  `e` int(255) default NULL,
  `f` int(255) default NULL,
  `g` int(255) default NULL,
  `h` int(255) default NULL,
  PRIMARY KEY  (`name`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

INSERT INTO `tb_xttj` VALUES (&#39;John&#39;, &#39;4&#39;, &#39;4&#39;, &#39;5&#39;, &#39;4&#39;, &#39;3&#39;, &#39;2&#39;, &#39;1&#39;, null);
INSERT INTO `tb_xttj` VALUES (&#39;Mary&#39;, &#39;3&#39;, &#39;4&#39;, &#39;4&#39;, &#39;2&#39;, &#39;5&#39;, &#39;4&#39;, &#39;3&#39;, null);
INSERT INTO `tb_xttj` VALUES (&#39;Lucy&#39;, &#39;2&#39;, &#39;3&#39;, null, &#39;3&#39;, null, &#39;3&#39;, &#39;4&#39;, &#39;5&#39;);
INSERT INTO `tb_xttj` VALUES (&#39;Tom&#39;, &#39;3&#39;, &#39;4&#39;, &#39;5&#39;, null, &#39;1&#39;, &#39;3&#39;, &#39;5&#39;, &#39;4&#39;);
INSERT INTO `tb_xttj` VALUES (&#39;Bill&#39;, &#39;3&#39;, &#39;2&#39;, &#39;1&#39;, &#39;5&#39;, &#39;3&#39;, &#39;2&#39;, &#39;1&#39;, &#39;1&#39;);
INSERT INTO `tb_xttj` VALUES (&#39;Leo&#39;, &#39;3&#39;, &#39;4&#39;, &#39;5&#39;, &#39;2&#39;, &#39;4&#39;, null, null, null);

我这里只对最后一行的Leo进行推荐，看看f,g,h哪个可以推荐给他。

用php+mysql，流程图如下：

连接数据库并将其存储为二维数组的代码如下：

header("Content-Type:text/html;charset=utf-8");

mysql_connect("localhost","root","admin");
mysql_select_db("geodatabase");
mysql_query("set names &#39;utf8&#39;");	

$sql = "SELECT * FROM tb_xttj";
$result = mysql_query($sql);

$array = array();
while($row=mysql_fetch_array($result))
{
	$array[]=$row;//$array[][]是一个二维数组
}

问题1：这一步完全可以看做是整表查询，这种查询是大忌，对于这种小小的演示系统还可以，但是对大数据的系统，没有效率，至于如何改进，还得多学习才是。

求Leo与其他人的Cos值代码如下：

/*
 * 以下示例只求Leo的推荐,如此给变量命名我也是醉了;初次理解算法，先不考虑效率和逻辑的问题，主要把过程做出来
 */

$cos = array();
$cos[0] = 0;
$fm1 = 0;
//开始计算cos
//计算分母1，分母1是第一个公式里面 “*”号左边的内容，分母二是右边的内容
for($i=1;$i<9;$i++){
	if($array[5][$i] != null){//$array[5]代表Leo
		$fm1 += $array[5][$i] * $array[5][$i];
	}
}

$fm1 = sqrt($fm1);

for($i=0;$i<5;$i++){
	$fz = 0;
	$fm2 = 0;
	echo "Cos(".$array[5][0].",".$array[$i][0].")=";
	
	for($j=1;$j<9;$j++){
	    //计算分子
		if($array[5][$j] != null && $array[$i][$j] != null){
			$fz += $array[5][$j] * $array[$i][$j];
		}
		//计算分母2
		if($array[$i][$j] != null){
			$fm2 += $array[$i][$j] * $array[$i][$j];
		}			
	}
	$fm2 = sqrt($fm2);
	$cos[$i] = $fz/$fm1/$fm2;
	echo $cos[$i]."<br/>";
}

这一步得到的结果是酱紫：

将求好的Cos值排序，采用快排代码如下（百度copy而来）：

//对计算结果进行排序,凑合用快排吧先
function quicksort($str){
	if(count($str)<=1) return $str;//如果个数不大于一，直接返回
	$key=$str[0];//取一个值，稍后用来比较；
	$left_arr=array();
	$right_arr=array();
	
	for($i=1;$i<count($str);$i++){//比$key大的放在右边，小的放在左边；
		if($str[$i]>=$key)
		$left_arr[]=$str[$i];
		else
		$right_arr[]=$str[$i];
	}
	$left_arr=quicksort($left_arr);//进行递归；
	$right_arr=quicksort($right_arr);
	return array_merge($left_arr,array($key),$right_arr);//将左中右的值合并成一个数组；
}

$neighbour = array();//$neighbour只是对cos值进行排序并存储
$neighbour = quicksort($cos);

这里的$neighbour数组仅仅存储了从大到小排序好的Cos值，并没有与人联系起来。这个问题还要解决。

选出Cos值最高的3个人，作为Leo的邻居：

//$neighbour_set 存储最近邻的人和cos值
$neighbour_set = array();
for($i=0;$i<3;$i++){
	for($j=0;$j<5;$j++){
		if($neighbour[$i] == $cos[$j]){
			$neighbour_set[$i][0] = $j;
			$neighbour_set[$i][1] = $cos[$j];
			$neighbour_set[$i][2] = $array[$j][6];//邻居对f的评分
			$neighbour_set[$i][3] = $array[$j][7];//邻居对g的评分
			$neighbour_set[$i][4] = $array[$j][8];//邻居对h的评分
		}
	}
}
print_r($neighbour_set);
echo "<p><br/>";

这一步得到的结果是酱紫：

这是一个二维数组，数组第一层的下标为0，1，2，代表3个人。第二层下标0代表邻居在数据表中的顺序，比如Jhon是表中的第0个人；下标1代表Leo和邻居的Cos值；下标2，3,4分别代表邻居对f,g,h的评分。

开始进行预测，计算Predict代码如下：

我是分别计算Leo对f，g，h的预测值。在此有一个问题，就是如果有的邻居对f，g，h的评分为空，那么该如何处理。比如Jhon和Mary对h的评分就为空。本能的想到用if判断一下，如果为空则跳过这组计算，不过这样处理是否合理，有待考虑。以下代码并没有写出这个if判断。

//计算Leo对f的评分
$p_arr = array();
$pfz_f = 0;
$pfm_f = 0;
for($i=0;$i<3;$i++){
	$pfz_f += $neighbour_set[$i][1] * $neighbour_set[$i][2];
	$pfm_f += $neighbour_set[$i][1];
}
$p_arr[0][0] = 6;
$p_arr[0][1] = $pfz_f/sqrt($pfm_f);
if($p_arr[0][1]>3){
	echo "推荐f";
}

//计算Leo对g的评分
$pfz_g = 0;
$pfm_g = 0;
for($i=0;$i<3;$i++){
	$pfz_g += $neighbour_set[$i][1] * $neighbour_set[$i][3];
	$pfm_g += $neighbour_set[$i][1];
	$p_arr[1][0] = 7;
	$p_arr[1][1] = $pfz_g/sqrt($pfm_g);
}
if($p_arr[0][1]>3){
	echo "推荐g";
}

//计算Leo对h的评分
$pfz_h = 0;
$pfm_h = 0;
for($i=0;$i<3;$i++){
	$pfz_h += $neighbour_set[$i][1] * $neighbour_set[$i][4];
	$pfm_h += $neighbour_set[$i][1];
	$p_arr[2][0] = 8;
	$p_arr[2][1] = $pfz_h/sqrt($pfm_h);
}
print_r($p_arr);
if($p_arr[0][1]>3){
	echo "推荐h";
}

$p_arr是对Leo的推荐数组，其内容类似如下;

Array ( [0] => Array ( [0] => 6 [1] => 4.2314002228795 ) [1] => Array ( [0] => 7 [1] => 2.6511380196197 ) [2] => Array ( [0] => 8 [1] => 0.45287424581774 ) )

f是第6列，Predict值是4.23，g是第七列，Predict值是2.65........

求完了f,g,h的Predict值后有两种处理方式：一种是将Predict值大于3的物品推荐给Leo，另一种是将Predict值从大到小排序，将Predict值大的前2个物品推荐给Leo。这段代码没有写。

从上面的示例中可以看出，推荐算法的实现非常麻烦，需要循环，判断，合并数组等等。如果处理不当，反而会成为系统的累赘。在实际处理中还有以下问题：

1.以上示例我们只对Leo进行推荐，而且我们已经知道Leo没有评价过f，g，h物品。如果放到实际的系统里，对于每一个需要进行推荐的用户，都要查询出他没有评价过哪些物品，这又是一部分开销。

2.不應進行整表查詢，在實際系統中可以設定一些標準值。例如：我們求Leo與表中的其他人的Cos值，如果該值大於0.80，則表示可以為鄰居。這樣，當我找到10個鄰居之後，就停止求Cos值，避免整表查詢。對於推薦物品也可以適當採用此方法，例如，我只推薦10個物品，推薦完後就停止求Predict值。

3.隨著系統的使用，物品也會發生變化，今天是fgh，明天沒準就是xyz了，當物品變化時，需要動態的改變資料表。

4.可以適當地引進內容為基礎的推薦，來完善推薦演算法。

5.推薦的精確性問題，這個設定不同的標準值，會影響精確性。

總結：我覺得本質的問題是演算法的效率就不高，繼續學習，看看有沒有更好的協同過濾推薦演算法。

以上是php+mysql協同過濾演算法的實現的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP的當前狀態：查看網絡開發趨勢Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要，尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持，如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器，提升性能。 4)雲原生應用通過Docker和Kubernetes部署，提高靈活性和可擴展性。

PHP與其他語言：比較Apr 13, 2025 am 12:19 AM

PHP適合web開發，特別是在快速開發和處理動態內容方面表現出色，但不擅長數據科學和企業級應用。與Python相比，PHP在web開發中更具優勢，但在數據科學領域不如Python；與Java相比，PHP在企業級應用中表現較差，但在web開發中更靈活；與JavaScript相比，PHP在後端開發中更簡潔，但在前端開發中不如JavaScript。

PHP與Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有優勢，適合不同場景。 1.PHP適用於web開發，提供內置web服務器和豐富函數庫。 2.Python適合數據科學和機器學習，語法簡潔且有強大標準庫。選擇時應根據項目需求決定。

PHP：網絡開發的關鍵語言Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

PHP：許多網站的基礎Apr 13, 2025 am 12:07 AM

PHP成為許多網站首選技術棧的原因包括其易用性、強大社區支持和廣泛應用。 1)易於學習和使用，適合初學者。 2)擁有龐大的開發者社區，資源豐富。 3)廣泛應用於WordPress、Drupal等平台。 4)與Web服務器緊密集成，簡化開發部署。

超越炒作：評估當今PHP的角色Apr 12, 2025 am 12:17 AM

PHP在現代編程中仍然是一個強大且廣泛使用的工具，尤其在web開發領域。 1)PHP易用且與數據庫集成無縫，是許多開發者的首選。 2)它支持動態內容生成和麵向對象編程，適合快速創建和維護網站。 3)PHP的性能可以通過緩存和優化數據庫查詢來提升，其廣泛的社區和豐富生態系統使其在當今技術棧中仍具重要地位。