Heim  >  Artikel  >  Backend-Entwicklung  >  Kann PHP als Crawler verwendet werden?

Kann PHP als Crawler verwendet werden?

(*-*)浩
(*-*)浩Original
2019-09-28 10:52:524267Durchsuche

phpspider ist ein ausgezeichneter PHP-Spider-Crawler

Kann PHP als Crawler verwendet werden?

Um einen PHP-Webcrawler zu schreiben, benötigen Sie Folgendes Fähigkeiten:

Der Crawler ist in PHP geschrieben (empfohlenes Lernen: PHP-Video-Tutorial)

Das Extrahieren von Daten aus Webseiten erfordert XPath (XPath-Selektor-Tutorial)

Natürlich können wir auch CSS-Selektoren verwenden (CSS-Selektor-Tutorial)

Reguläre Ausdrücke (Tutorial für reguläre Ausdrücke) werden in vielen Situationen verwendet

Die Entwicklertools von Chrome sind erstaunliche Tools, viele AJAX-Anfragen müssen analysiert werden

Hinweis: Dieses Framework kann nur unter der Befehlszeile ausgeführt werden, Befehlszeile, Befehlszeile, Befehlszeile, wichtige Dinge werden dreimal gesagt^_ ^

Die in diesem Artikel geschriebene Demo dient zum Crawlen der Website für militärische Ausbildung

<?php
require_once __DIR__ . &#39;/../autoloader.php&#39;;
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
    &#39;name&#39; => &#39;军事&#39;, // 给你的爬虫起一个名字
    &#39;log_show&#39; => false, // 是否显示日志
    &#39;tasknum&#39; => 1, // 开启多少个进程爬取
    // 数据库配置
    &#39;db_config&#39; => array(
        &#39;host&#39;  => &#39;127.0.0.1&#39;,
        &#39;port&#39;  => 3306,
        &#39;user&#39;  => &#39;root&#39;,
        &#39;pass&#39;  => &#39;root&#39;,
        &#39;name&#39;  => &#39;collection&#39;,
    ),
    // 数据库表,表需要已存在,collection库,test表
    &#39;export&#39; => array(
        &#39;type&#39; => &#39;db&#39;,
        &#39;table&#39; => &#39;test&#39;,
    ),
    // 爬取的域名列表
    &#39;domains&#39; => array(
        &#39;war.163.com&#39;
    ),
    // 抓取的起点
    &#39;scan_urls&#39; => array(
        &#39;http://war.163.com&#39;
    ),
    // 列表页实例,你要爬取的列表,也就是分页
    &#39;list_url_regexes&#39; => array(
        "http://war.163.com"
    ),
    // 内容页实例,文章的内容页
    // \d+ 指的是变量,就是可变的参数
    &#39;content_url_regexes&#39; => array(
        "http://war.163.com/photoview/4T8E0001/\d+",
    ),
    // 失败重新爬取次数
    &#39;max_try&#39; => 5,
    // 爬取规则配置
    &#39;fields&#39; => array(
        array(
            &#39;name&#39; => "title", // 数据库字段名
            &#39;selector&#39; => "//div[@class=&#39;headline&#39;]/h1", // 规则,表示:headline类里的h1标签
            &#39;required&#39; => true, // 如果为空,整条数据丢弃
        ),
        array(
            &#39;name&#39; => "content",
            &#39;selector&#39; => "//div[@class=&#39;overview&#39;]/p",
            &#39;required&#39; => true,
        ),
        array(
            &#39;name&#39; => "img",
            &#39;selector&#39; => "//img[@class=&#39;firstPreload&#39;]",
            &#39;required&#39; => true,
        ),
    ),
);

$spider = new phpspider($configs);
$spider->start();

Das obige ist der detaillierte Inhalt vonKann PHP als Crawler verwendet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn