Maison  >  Article  >  développement back-end  >  Pratique d'opération de script PHP Linux : guide de développement de robots d'exploration Web

Pratique d'opération de script PHP Linux : guide de développement de robots d'exploration Web

WBOY
WBOYoriginal
2023-10-05 09:57:30731parcourir

PHP Linux脚本操作实战:网络爬虫开发指南

Pratique d'opération de script PHP Linux : Guide de développement de robots d'exploration Web

Introduction :
Avec le développement rapide d'Internet, l'information a explosé et la demande d'information des gens augmente également. En tant qu'outil automatisé, les robots d'exploration Web peuvent nous aider à obtenir les informations requises sur Internet rapidement et efficacement, et ont reçu une attention et une application généralisées. Cet article explique comment utiliser les opérations de script PHP et Linux pour développer des robots d'exploration Web et fournit des exemples de code spécifiques pour aider les lecteurs à démarrer rapidement le développement de robots d'exploration Web.

1. Préparation de l'environnement :
Avant de commencer le développement des robots web, nous devons préparer l'environnement suivant :

  1. Un serveur avec un système d'exploitation Linux installé
  2. Environnement PHP, vous pouvez saisir "php dans le terminal - v" pour voir s'il est installé. S'il n'est pas installé, vous pouvez l'installer via "apt-get install php"
  3. Pour installer l'extension curl, vous pouvez l'installer via "apt-get install php-curl"
  4. Pour installer l'outil wget, vous pouvez l'installer via "apt-get install wget" pour l'installer.

2. Exploration du contenu d'une page Web :
Pour développer un robot d'exploration Web, la tâche la plus élémentaire consiste à obtenir le contenu d'une page Web spécifiée. Ce qui suit est un exemple simple pour obtenir le contenu d'une page Web spécifiée via l'extension curl de PHP :

<?php
// 创建一个curl句柄
$ch = curl_init();

// 设置curl的参数
curl_setopt($ch, CURLOPT_URL, "http://www.example.com/");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行请求并获取返回的内容
$result = curl_exec($ch);

// 关闭curl句柄
curl_close($ch);

// 输出获取到的内容
echo $result;
?>

Dans le code ci-dessus, utilisez d'abord la fonction curl_init() pour créer un handle curl, puis utilisez la fonction curl_setopt() pour définir la page Web à laquelle il faut accéder, le format de l'adresse et le contenu renvoyé, enfin utiliser la fonction curl_exec() pour exécuter la requête et obtenir le contenu renvoyé, et enfin utiliser la fonction curl_close() pour fermer le handle curl. Enfin, le contenu obtenu est généré via l'instruction echo.

3. Analyser le contenu de la page Web :
L'obtention du contenu de la page Web n'est que la première étape. Ensuite, nous devons extraire les données dont nous avons besoin. Normalement, nous pouvons utiliser des expressions régulières pour extraire des données. Voici un exemple simple :

<?php
// 获取网页内容
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.example.com/");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);

// 使用正则表达式提取标题
preg_match("/<title>(.*?)</title>/", $result, $matches);
$title = $matches[1];

// 使用正则表达式提取正文内容
preg_match("/<div class="content">(.*?)</div>/", $result, $matches);
$content = $matches[1];

// 输出提取到的标题和正文内容
echo "标题:".$title."
";
echo "正文内容:".$content."
";
?>

Dans le code ci-dessus, nous utilisons curl pour obtenir le contenu de la page Web et extrayons le titre et le corps via le contenu des expressions régulières. Enfin, les données extraites sont sorties via l'instruction echo.

4. Sauvegarde des données :
Après avoir obtenu les données, nous les enregistrons généralement dans une base de données ou un fichier pour une analyse et une utilisation ultérieures. Voici un exemple d'enregistrement des données analysées dans un fichier :

<?php
// 获取网页内容
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.example.com/");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);

// 使用正则表达式提取标题
preg_match("/<title>(.*?)</title>/", $result, $matches);
$title = $matches[1];

// 使用正则表达式提取正文内容
preg_match("/<div class="content">(.*?)</div>/", $result, $matches);
$content = $matches[1];

// 将数据保存到文件中
$file = fopen("data.txt", "w");
fwrite($file, "标题:".$title."
");
fwrite($file, "正文内容:".$content."
");
fclose($file);

echo "数据已保存到文件 data.txt 中
";
?>

Dans le code ci-dessus, nous créons un fichier nommé data.txt et écrivons les données extraites dans le fichier via la fonction fwrite(), et enfin fermons le fichier via la fonction fclose(). Enfin, une invite indiquant une sauvegarde réussie est émise via l'instruction echo.

Résumé :
Grâce à l'introduction de cet article, nous avons appris à utiliser les scripts PHP et Linux pour développer des robots d'exploration Web. Tout d'abord, nous avons appris à utiliser l'extension curl pour obtenir le contenu d'une page Web spécifiée ; ensuite, nous avons appris à utiliser des expressions régulières pour extraire les données requises du contenu de la page Web. Enfin, nous avons appris à enregistrer les données analysées dans un fichier ; fichier au milieu. Je pense que grâce à la pratique de ces exemples de codes, les lecteurs peuvent maîtriser les compétences de base en développement de robots d'exploration Web et approfondir leur apprentissage et leur exploration.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn