Maison >développement back-end >Problème PHP >Comment installer le framework de robot d'exploration php
Quand il s'agit de créer des robots d'exploration, la première chose à laquelle tout le monde peut penser est Python. En fait, PHP peut également être utilisé pour écrire des programmes de robots d'exploration. PHP a toujours été simple et facile à utiliser. J'ai personnellement testé que je pouvais écrire un programme d'exploration simple en 10 minutes en utilisant le framework PHPspider.
1. Installation de l'environnement PHP
Comme Python, PHP a également besoin d'un environnement Vous pouvez utiliser PHP téléchargé sur le site officiel, ou vous pouvez utiliser XAMPP, PHPstudy et. autres environnements intégrés PHP. Un environnement intégré est recommandé, éliminant le besoin d'installer la base de données Mysql séparément.
2. Installation de Composer
Composer est un outil de gestion de packages de dépendances sous PHP, similaire à PIP en Python.
Le site officiel chinois est https://www.phpcomposer.com/
Téléchargez-le et installez-le simplement. Exécutez cmd avec win+R et entrez la commande composer si l'image suivante apparaît. , l'installation est réussie.
3. Installation de PHPspider
Créez un dossier dans n'importe quel emplacement. Par exemple, si nous voulons capturer les données du. bref livre, nous Vous pouvez créer le dossier jianshu sur le lecteur D, puis entrer dans le dossier avec la commande cmd et exécuter la commande :
composer require owner888/phpspider
Le résultat suivant est une installation réussie.
Recommandations associées : "Configuration de l'environnement php"
4. Commencez à écrire le premier robot
Maintenant, ouvrez le dossier jianshu, vous constaterez qu'il contient encore d'autres éléments, ne vous inquiétez pas, créez un fichier php et commencez à coder. La documentation de développement est ici : https://doc.phpspider.org/demo-start.htmlJe ne parlerai pas des bases ici, allez directement au code, car nous faisons un tutoriel rapide de 10 minutes. La méthode de correspondance utilise la syntaxe XPach.<?php require '/vendor/autoload.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '简书', 'log_show' =>false, 'tasknum' => 1, //数据库配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => '', 'name' => 'demo', ), 'export' => array( 'type' => 'db', 'table' => 'jianshu', // 如果数据表没有数据新增请检查表结构和字段名是否匹配 ), //爬取的域名列表 'domains' => array( 'jianshu', 'www.jianshu.com' ), //抓取的起点 'scan_urls' => array( 'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop' ), //列表页实例 'list_url_regexes' => array( "https://www.jianshu.com/c/\d+" ), //内容页实例 // \d+ 指的是变量 'content_url_regexes' => array( "https://www.jianshu.com/p/\d+", ), 'max_try' => 5, 'fields' => array( array( 'name' => "title", 'selector' => "//h1[@class='title']", 'required' => true, ), array( 'name' => "content", 'selector' => "//div[@class='show-content-free']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();Expliquons un peu la signification de la syntaxe :
//h1[@class='title']Obtenir tous les nœuds h1 avec la valeur de classe title
//div[@class='show-content-free']Obtenir tous les divs avec la valeur de classe show-content-free Après avoir terminé le code du nœud , pensez à créer la base de données et la table de données correspondantes en fonction du contenu à capturer, et les champs doivent être alignés. Saisissez ensuite cmd :
php -f d:\jianshu\spider.phpExécutez comme suit : Ouvrez les données et jetez un œil. Avez-vous tout capturé ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!