搜尋

首頁  >  問答  >  主體

php - 为什么写爬虫都喜欢用python?

为什么写爬虫都喜欢用python?

楼主学php的,但是也自学过python,对php了解还是比较深的,看了一些python爬虫的源代码,感觉同样的功能php也都能写出来啊。

有人可能会吐槽说php不支持多线程,事实上php是有pthreads多线程扩展的,同样也可以很高效的支持php扩展。

楼主平时也玩玩渗透,很多情况下由于对php了解更多用起来更上手,所以很多payload利用或者一些sql注入验证脚本也都是php写的,感觉php数组处理比较方便,对数据的处理要更加灵活。(举个例子,php的数组其实就是python下的集合,元组,字典等数据结构的整合,结合一些数组处理框架比如说Laravel里面的集合辅助函数,甚至可以实现类似于.NET下的Linq语法,这方面我个人觉得php用起来比python要爽一点。不过我也不清楚python下是不是也有类似的类库?)

所以想问问python为什么会更适合编写爬虫?(可能是python有一些更强大的特性楼主不懂,因此前来请教)

高洛峰高洛峰2804 天前1607

全部回覆(21)我來回復

  • 高洛峰

    高洛峰2017-04-10 17:54:35

    可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.

    例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容
    <?php
    require dirname(__FILE__).'/simple_html_dom.php';
    $html = file_get_html('http://cn2.php.net');
    $news = array();
    foreach($html->find('article.newsentry') as $article) {
        $item['time']    = trim($article->find('time',            0)->plaintext);
        $item['title']   = trim($article->find('h2.newstitle',    0)->plaintext);
        $item['content'] = trim($article->find('p.newscontent', 0)->plaintext);
        $news[] = $item;
    }
    var_export($news);
    
    例2:curl_multi并行发起多个请求
    接口1: php -S 127.0.0.1:8080 -t /home/eechen/www
    接口2: php -S 127.0.0.2:8080 -t /home/eechen/www
    /home/eechen/www/index.php:
    header('Content-Type: application/json; charset=utf-8');
    echo json_encode(array('SERVER_NAME' => $_SERVER['SERVER_NAME']));
    //串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒.
    ($_SERVER['SERVER_NAME'] == '127.0.0.1') ? sleep(2) : sleep(1);
    
    <?php
    $url[] = 'http://127.0.0.1:8080';
    $url[] = 'http://127.0.0.2:8080';
    $mh = curl_multi_init();
    foreach($url as $k => $v) {
        $ch[$k] = curl_init($v);
        curl_setopt($ch[$k], CURLOPT_HEADER, 0); //不输出头
        curl_setopt($ch[$k], CURLOPT_RETURNTRANSFER, 1); //exec返回结果而不是输出,用于赋值
        curl_multi_add_handle($mh, $ch[$k]); //决定exec输出顺序
    }
    $running = null;
    $starttime = microtime(true);
    do { //执行批处理句柄
        curl_multi_exec($mh, $running); //CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容.
        curl_multi_select($mh); //阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%.
    } while ($running > 0);
    echo microtime(true) - $starttime."\n"; //耗时约2秒
    foreach($ch as $v) {
        $json[] = curl_multi_getcontent($v);
        curl_multi_remove_handle($mh, $v);
    }
    curl_multi_close($mh);
    var_export($json); 
    
    例3:PHP使用多线程异步获取资源
    <?php
    class Request extends Thread {
        public $url;
        public $data;
        public function __construct($url) {
            $this->url = $url;
        }
        public function run() {
            // 线程处理一个耗时5秒的任务
            for($i=0;$i<5;$i++) {
                echo '线程: '.date('H:i:s')."\n";
                sleep(1);
            }
            $response = file_get_contents($this->url);
            if ($response) {
                $this->data = array($response);
            }
            echo "线程: 任务完成\n";
        }
    }
    $request = new Request('hello.html');
    // 运行线程:start()方法会触发run()运行
    if ($request->start()) {
        // 主进程处理一个耗时10秒的任务,此时线程已经工作
        for($i=0;$i<10;$i++) {
            echo '进程: '.date('H:i:s')."\n";
            sleep(1);
        }
        // 同步线程并输出线程返回的数据
        $request->join();
        echo '线程返回数据: '.$request->data[0];
    }
    /*
    如果顺序执行,合计时间将是15秒,借助线程,则只需10秒.
    生成文件: echo 'Hello' > hello.html
    运行计时: time php req.php 
    查看线程: ps -efL|head -n1 && ps -efL|grep php
    */

    回覆
    0
  • 天蓬老师

    天蓬老师2017-04-10 17:54:35

    因为用python写爬虫的人喜欢写博客分享,所以造成了你的这种错觉。

    我们用java做的爬虫。其实啥语言都行,看团队和业务偏向。

    回覆
    0
  • 天蓬老师

    天蓬老师2017-04-10 17:54:35

    我主用 PHP,但是我写爬虫依然不会选择用 PHP,而是用 python。

    1. Python 有 scrapy 这样成熟的框架,我们大可不必自己从0开始

    2. 即使从0开始,以 Python 简洁的语法和一大波成熟的库,写起来相当的快。PHP 语法,你懂的。我试过写爬虫,体验还是不如 Python的

    3. Python 数据处理个人认为比较方便,虽然 PHP 处理 DOM 也很挺方便的

    Pthon 唯一不方便的大概是编码处理了。

    回覆
    0
  • 阿神

    阿神2017-04-10 17:54:35

    @eechen 已经说了很多了,我来补充几个更为优雅的库。

    用于爬取数据的:guzzle

    文档地址:http://docs.guzzlephp.org/en/...
    Composer 库名:guzzlehttp/guzzle,对应 Packagist 地址 https://packagist.org/package...

    Guzzle 有着非常直观的写法,底层对 Stream 和 cURL 都有封装,支持的 HTT P请求方式以及细节非常丰富,支持 cURL 的多线程,当然也可利用 pthread 增强,如果配合 swoole 则更高效。

    用于解析文档的:DOMCrawler

    文档地址:http://symfony.com/doc/curren...
    Composer 库名:symfony/dom-crawler,对应 Packagist 地址:https://packagist.org/package...

    该组件性能比 simple_html_dom 要高得多,因为是基于 PHP 自带的 DOM 解析类(用 C 语言)实现的,而且是强大的 Symfony 框架的组件,意味着可以不依赖框架单独在任何 PHP 项目中使用。文档简单易懂,可以同时参考 PHP 官方 DOM 的文档 http://php.net/manual/zh/book...,毕竟是继承关系,DOMCrawler 在此基础上多了类似 CSS 选择器的方式(jQuery 那一套)去查找 DOMNode。

    回覆
    0
  • 怪我咯

    怪我咯2017-04-10 17:54:35

    我自己觉得吧,虽然PHP是最好的语言,但是最重要的还是因为程序猿最大的美得——懒,PHP还得自己造轮子,Python下已经有很成熟的轮子了,那么作为一个有良好美得的程序猿自然就都用Python啦,要是题主造出个比Python爬虫还好用的轮子保证大家都用PHP啦

    回覆
    0
  • PHPz

    PHPz2017-04-10 17:54:35

    scrapy是个很成熟的爬虫库,成熟的原因;

    1. 管理cookie

    2. css和xpath的选择器

    3. 并行爬取

    4. link抽取
      等等,还有一大堆插件,最重要的是易于扩展,象处理403之类的状态加个middelware就解决了

    回覆
    0
  • 巴扎黑

    巴扎黑2017-04-10 17:54:35

    并非是说PHP可以写爬虫就得用它写爬虫,你叫C++情何以堪。在爬虫这块,Python为何如此倍受推崇,个人认为主要是各类优秀爬虫框架满足需求,不需要每个人从零开始造轮子。然后就是爬虫的应用是什么?数据分析,数据处理呀。。必然是Python相比PHP更有优势的地方

    回覆
    0
  • 黄舟

    黄舟2017-04-10 17:54:35

    看业务场景, 像爬虫这类通用的需求, 自己熟悉哪个工具就用哪个吧。

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-10 17:54:35

    所有图灵完备又有网络功能的都能实现爬虫额。。。但是问题是斧子能打猎、枪也能打猎,工具总有方便程度的额

    回覆
    0
  • 迷茫

    迷茫2017-04-10 17:54:35

    1. 库多

    2. 语法清楚

    3. 没了

    回覆
    0
  • 取消回覆