search
Homephp教程php手册PHP爬取糗事百科首页糗事

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩!

说干就干!首先确定思路

获取HTML源码--->解析HTML--->保存到数据库

没有什么难的

1、创建PHP文件“getDataToDB.php”,

2、获取指定URL的HTML源码

这里我用的是curl函数,详细内容参见PHP手册

代码为

 

<span new="" style="font-family:Times">// 获取对应链接的HTMLCODE
function GetHtmlCode($url) {
	$ch = curl_init (); // 初始化一个cur对象
	curl_setopt ( $ch, CURLOPT_URL, $url ); // 设置需要抓取的网页
	curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 ); // 设置crul参数,要求结果保存到字符串中还是输出到屏幕上
	curl_setopt ( $ch, CURLOPT_CONNECTTIMEOUT, 1000 ); // 设置链接延迟
	$HtmlCode = curl_exec ( $ch ); // 运行curl,请求网页
	return $HtmlCode;
}</span>
3、引入第三方文件’simple_html_dom.php‘来解析HTML

 

这里我没有能力使用正则表达式,就在网上海搜,终于找到这个,就像Java使用Jsoup(使用Jsoup解析滁州学院官网获取新闻列表)一样,具体参见BLOG

代码如下

 

<span new="" style="font-family:Times">function getFmlDataToDB() {
	$link = mysql_connect ( SAE_MYSQL_HOST_M . &#39;:&#39; . SAE_MYSQL_PORT, SAE_MYSQL_USER, SAE_MYSQL_PASS );
	// 获取源码
	$html = str_get_html ( GetHtmlCode ( http://www.qiushibaike.com/ ) );
	
	if ($link) {
		mysql_select_db ( SAE_MYSQL_DB, $link );
		mysql_query ( &#39;set names utf8&#39; );
		// class=article block untagged mb15
		foreach ( $html->find ( &#39;div[class=article block untagged mb15]&#39; ) as $per ) {
			
			$z = null;
			$t = null;
			$w = null;
			$d = null;
			$p = null;
			$ds = null;
			$ps = null;
			
			// //作者
			$author = $per->find ( &#39;div[class=author]&#39; );
			if ($author != null) {
				$a = $author [0]->find ( &#39;a&#39; );
				$z = $a [1]->innertext;
			} else {
				$z = &#39;no author&#39;;
			}
			
			// 头像链接
			
			if ($author != null) {
				$icon = $author [0]->find ( &#39;a&#39; );
				$t = $icon [0]->src->innertext;
			} else {
				$t = &#39;...............&#39;;
			}
			
			// 文章内容
			$content = $per->find ( &#39;div[class=content]&#39; );
			$w = $content [0]->innertext;
			
			// 点赞数
			$vote1 = $per->find ( &#39;div[class=stats]&#39; );
			$vote2 = $vote1 [0]->find ( &#39;span[class=stats-vote]&#39; );
			$vote3 = $vote2 [0]->find ( &#39;i[class=number]&#39; );
			
			$d = $vote3 [0]->innertext;
			// 评论数
			$comments1 = $vote1 [0]->find ( &#39;span[class=stats-comments]&#39; );
			$comments2 = $comments1 [0]->find ( &#39;a[class=qiushi_comments]&#39; );
			$comments3 = $comments2 [0]->find ( &#39;i[class=number]&#39; );
			$p = $comments3 [0]->innertext;
			// 顶 数
			$up_down = $per->find ( &#39;div[class=stats-buttons bar clearfix]&#39; );
			
			$up_down1 = $up_down [0]->find ( &#39;ul&#39; );
			$li = $up_down1 [0]->find ( &#39;li&#39; );
			$up = $li [0]->find ( &#39;span[class=number hidden]&#39; );
			$ds = $up [0]->innertext;
			// 拍 数
			$down = $li [1]->find ( &#39;span[class=number hidden]&#39; );
			$ps = $down [0]->innertext;

		}
	} else {
		echo &#39;数据库链接KO&#39;;
	}
}</span>
这个代码写的有点纠结,我试了一下不能直接获取子节点的数据,只能从外层一层一层的剥开解析,如果有新的写法,我会更新,也请各位看官看看。

 

4、创建数据库,将数据插入到数据库中

这里我使用的SAE中的MySQL,具体的连接方发参见使用PHP连接SAE中的MySql数据库

需要注意的就是编码格式,区要在执行语句前加上这样一句话

 

<span style="font-family:Microsoft">mysql_query ( &#39;set names utf8&#39; );</span>
核心代码如下:

 

 

<span style="font-family:Microsoft">			$sql = INSERT INTO `app_bmhjqs`.`db_fml` (`id`, `author`, `icon_url`, `content`, `vote`, `comments`, `up`, `down`) VALUES (NULL, &#39;$z&#39;, &#39;$t&#39;, &#39;$w&#39;, &#39;$d&#39;, &#39;$p&#39;, &#39;$ds&#39;, &#39;$ps&#39;);;
			// 解决乱码
			mysql_query ( &#39;set names utf8&#39; );
			$result = mysql_query ( $sql );</span>

这样一来,获取--->解析--->插入就完成了,效果就是运行一次PHP文件,数据库就添加了糗事百科首页上的糗事!我想可不可以写个定时器,每隔一定时间就运行一次代码,这一点在java我可以实现,在php我不会,毕竟是个没长毛的小鸟!百度吧。。。搜到这样的写法

 

 

<span new="" style="font-family:Times">// 定时器
// ignore_user_abort (); // run script. in background
// set_time_limit ( 0 ); // run script. forever
// $interval = 30; // do every 15 minutes..

// do {
// 	echo date ( &#39;Y-m-d H:i:s&#39;, time () );
// 	echo &#39;写入数据库&#39;;
// 	//getFmlDataToDB ();
	
// } while ( true );</span>
在文件里加上这样的代码,正好在学校断网前,发布到了SAE上,我没有测试!只能等到第二天来查看结果了!

 

今天早上,我迫不及待的打开电脑,打开SAE数据库,情况如下:

额滴神!受不鸟了,赶紧把定时器关掉了,写了个按钮触发事件!这样下去,数据库会被挤满的!

 

 

 

 


Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
如何设置谷歌浏览器首页如何设置谷歌浏览器首页Mar 02, 2024 pm 04:04 PM

如何设置谷歌浏览器首页?谷歌浏览器是如今最受欢迎的一款网络浏览器软件,这款浏览器拥有简洁高效的特性,神兽用户喜欢,在使用浏览器的时候,不同的人有不同的设置喜好,有人喜欢将谷歌浏览器设置成默认首页,也有人喜欢将首页设置成其他搜索引擎,那么具体要在哪里设置呢。接下来小编就给大家带来快速设置谷歌浏览器首页方法,希望能够给大家带来帮助。快速设置谷歌浏览器首页方法1、打开谷歌浏览器(如图所示)。2、点击界面右上角的菜单键(如图所示)。3、选择“设置”选项(如图所示)。4、在设置菜单中,找到“搜索引擎”(如

谷歌浏览器首页变360了怎么办?谷歌浏览器首页恢复谷歌浏览器首页变360了怎么办?谷歌浏览器首页恢复Mar 15, 2024 am 08:16 AM

谷歌浏览器首页变360了怎么办?谷歌浏览器是一款简洁便利的浏览器,不过很多小伙伴在使用的过程中却发现简洁的首页被替换成了360首页,想要将它恢复为原来的样式,那么应该怎么设置呢?下面就由小编为大家带来谷歌浏览器首页恢复的方法。  解决方法  1、首先打开谷歌浏览器。  2、想要改成默认,那就点击右上角的三个点。  3、点击【设置】打开设置页面。  4、点击【启动时】。  5、如图所示,这里【打开特定网页或一组网页】是360导航的网址。  6、点击360导航右侧的三个点。  7、点击【移除】。  

UniApp实现首页与导航页的设计与开发方法UniApp实现首页与导航页的设计与开发方法Jul 07, 2023 pm 09:09 PM

UniApp实现首页与导航页的设计与开发方法一、简介UniApp是一款基于Vue.js框架构建的跨平台开发工具,能够实现一套代码编译出多个平台的应用程序。在UniApp中,首页和导航页是开发应用时必备的两个页面,本文将介绍UniApp中如何设计和开发这两个页面,并提供相应的代码示例。二、首页设计与开发方法页面结构UniApp的首页一般包含标题栏、轮播图、分类

html子页如何返回到首页html子页如何返回到首页Nov 15, 2023 am 10:33 AM

html子页返回到首页的方法:1、使用超链接;2、使用JavaScript;3、使用浏览器的历史记录。详细介绍:1、使用超链接,在子页中添加一个超链接,将其链接到首页的URL,在子页的底部或导航栏中添加一个"返回首页"的链接,使用”<a>“标签来创建超链接,设置“href”属性为首页的URL;2、使用JavaScript,通过JavaScript代码来实现返回首页的功能等等。

《冒险寻宝然后打败魔王》首页NPC作用一览《冒险寻宝然后打败魔王》首页NPC作用一览Feb 10, 2024 am 11:00 AM

《冒险寻宝然后打败魔王》是一款西幻背景的RogueLike战棋游戏、新游上线,大家新玩家进入遇到不少问题,其中4个首页NPC的作用是什么?接下来就由小编给大家带来了《冒险寻宝然后打败魔王》4个首页NPC作用分享一览。冒险寻宝然后打败魔王首页NPC作用介绍4个首页NPC的作用:1、冒险团:冒险团升级,赛季冒险团升级,装备数量上限升级(背包一场冒险结束后记得去清理一下一些废物装备,要不然占格子空间),角色数量上限升级(初始只有8个角色位,金色角色可以超)2、训练官:训练角色(紫色和金色可以训练),升

如何设计首页轮播图功能的Java开关买菜系统如何设计首页轮播图功能的Java开关买菜系统Nov 01, 2023 am 11:20 AM

如何设计首页轮播图功能的Java开关买菜系统随着互联网的发展,人们的生活方式也在不断改变。越来越多的人开始选择在线购物,其中包括买菜。为了满足用户的需求,许多买菜平台推出了网上订购买菜的功能。而在这些平台中,首页轮播图是一个非常重要的功能之一。本文将介绍如何设计首页轮播图功能的Java开关买菜系统。一、功能需求分析在设计首页轮播图功能之前,我们需要先分析和明

360浏览器首页怎么设置360浏览器首页怎么设置Apr 07, 2024 pm 01:40 PM

360浏览器首页怎么设置?360浏览器是一款安全性非常高的网络浏览器软件,这款浏览器拥有丰富的功能和服务,很多用户喜欢使用这款浏览器办公,360浏览器的主页内容十分丰富,不少用户很喜欢这个主页,也有不少用户比较喜欢更简约的主页,那么我们如何设置360浏览器的主页呢。接下来小编就给大家带来360浏览器首页设置方法介绍,大家快来看看吧。360浏览器首页设置方法介绍1、首先需要先进入360安全浏览器的主界面(如图所示)。2、点击右上方的“三条杠”选项,再点击下拉出现的“设置”选项进入到设置界面就可以进

DZ首页URL精简化:去掉index.phpDZ首页URL精简化:去掉index.phpMar 12, 2024 pm 04:30 PM

DZ首页URL精简化:去掉index.php,需要具体代码示例在使用Discuz!论坛系统时,我们常常需要对URL进行优化,其中去掉index.php是一个常见的操作。通过去掉index.php,可以让URL更加简洁美观,同时也有利于搜索引擎优化。下面我们来介绍如何实现DZ首页URL的精简化,去掉index.php部分的具体代码示例。首先,我们需要登录到Di

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

Repo: How To Revive Teammates
1 months agoBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: How To Get Giant Seeds
1 months agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

WebStorm Mac version

WebStorm Mac version

Useful JavaScript development tools

PhpStorm Mac version

PhpStorm Mac version

The latest (2018.2.1) professional PHP integrated development tool

SublimeText3 Linux new version

SublimeText3 Linux new version

SublimeText3 Linux latest version

Notepad++7.3.1

Notepad++7.3.1

Easy-to-use and free code editor

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

This project is in the process of being migrated to osdn.net/projects/mingw, you can continue to follow us there. MinGW: A native Windows port of the GNU Compiler Collection (GCC), freely distributable import libraries and header files for building native Windows applications; includes extensions to the MSVC runtime to support C99 functionality. All MinGW software can run on 64-bit Windows platforms.