为什么写爬虫都喜欢用python?楼主学php的,但是也自学过python,对php了解还是比较深的,看了一些python爬虫的源代码,感觉同样的功能php也都能写出来啊,有人可能会吐槽说php不支持多线程,事实上php是有pthreads多线程扩展的,同样也可以狠高效的支持php扩展。楼主平时也玩玩渗透,很多情况下由于对php了解更多用起来更上手,所以很多payload利用或者一些sql注入验证脚本也都是php写的,感觉php数组处理比较方便,对数据的处理要更加灵活,所以想问问python为什么会更适合编写爬虫?(可能是python有一些更强大的特性楼主不懂,因此前来请教)
三叔2016-10-28 11:49:26
可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧
例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容 find('article.newsentry') as $article) { $item['time'] = trim($article->find('time', 0)->plaintext); $item['title'] = trim($article->find('h2.newstitle', 0)->plaintext); $item['content'] = trim($article->find('div.newscontent', 0)->plaintext); $news[] = $item; } var_export($news); 例2:curl_multi并行发起多个请求 接口1: php -S 127.0.0.1:8080 -t /home/eechen/www 接口2: php -S 127.0.0.2:8080 -t /home/eechen/www /home/eechen/www/index.php: header('Content-Type: application/json; charset=utf-8'); echo json_encode(array('SERVER_NAME' => $_SERVER['SERVER_NAME'])); //串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒. ($_SERVER['SERVER_NAME'] == '127.0.0.1') ? sleep(2) : sleep(1); $v) { $ch[$k] = curl_init($v); curl_setopt($ch[$k], CURLOPT_HEADER, 0); //不输出头 curl_setopt($ch[$k], CURLOPT_RETURNTRANSFER, 1); //exec返回结果而不是输出,用于赋值 curl_multi_add_handle($mh, $ch[$k]); //决定exec输出顺序 } $running = null; $starttime = microtime(true); do { //执行批处理句柄 curl_multi_exec($mh, $running); //CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容. curl_multi_select($mh); //阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%. } while ($running > 0); echo microtime(true) - $starttime."\n"; //耗时约2秒 foreach($ch as $v) { $json[] = curl_multi_getcontent($v); curl_multi_remove_handle($mh, $v); } curl_multi_close($mh); var_export($json); 例3:PHP使用多线程异步获取资源 url = $url; } public function run() { // 线程处理一个耗时5秒的任务 for($i=0;$i<5;$i++) { echo '线程: '.date('H:i:s')."\n"; sleep(1); } $response = file_get_contents($this->url); if ($response) { $this->data = array($response); } echo "线程: 任务完成\n"; } } $request = new Request('hello.html'); // 运行线程:start()方法会触发run()运行 if ($request->start()) { // 主进程处理一个耗时10秒的任务,此时线程已经工作 for($i=0;$i<10;$i++) { echo '进程: '.date('H:i:s')."\n"; sleep(1); } // 同步线程并输出线程返回的数据 $request->join(); echo '线程返回数据: '.$request->data[0]; } /* 如果顺序执行,合计时间将是15秒,借助线程,则只需10秒. 生成文件: echo 'Hello' > hello.html 运行计时: time php req.php 查看线程: ps -efL|head -n1 && ps -efL|grep php */