Maison >développement back-end >Problème PHP >Comment exécuter le robot d'exploration php
Quand il s'agit de créer un robot d'exploration, la première chose à laquelle tout le monde peut penser est Python. En fait, PHP peut également être utilisé pour écrire des programmes de robots d'exploration. PHP a toujours été simple et facile à utiliser. J'ai personnellement testé que je pouvais écrire un robot d'exploration simple en utilisant le framework PHPspider.
La méthode de correspondance utilise la syntaxe XPach. (Apprentissage recommandé : Tutoriel vidéo PHP)
<?php require '/vendor/autoload.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '简书', 'log_show' =>false, 'tasknum' => 1, //数据库配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => '', 'name' => 'demo', ), 'export' => array( 'type' => 'db', 'table' => 'jianshu', // 如果数据表没有数据新增请检查表结构和字段名是否匹配 ), //爬取的域名列表 'domains' => array( 'jianshu', 'www.jianshu.com' ), //抓取的起点 'scan_urls' => array( 'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop' ), //列表页实例 'list_url_regexes' => array( "https://www.jianshu.com/c/\d+" ), //内容页实例 // \d+ 指的是变量 'content_url_regexes' => array( "https://www.jianshu.com/p/\d+", ), 'max_try' => 5, 'fields' => array( array( 'name' => "title", 'selector' => "//h1[@class='title']", 'required' => true, ), array( 'name' => "content", 'selector' => "//div[@class='show-content-free']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();
Après avoir terminé le code, pensez à créer la base de données et la table de données correspondantes en fonction du contenu à capturer, et les champs doivent être aligné.
Ensuite entrez cmd, entrez
php -f d:\jianshu\spider.php
et exécutez comme suit
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!