基于curl数据采集之正则处理函数get_matches的使用-php手册-PHP中文網

首頁

php教程

php手册

基于curl数据采集之正则处理函数get_matches的使用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 am 11:53 AM

curlget使用函數基於處理數據採集正規則的

根据前两篇的博文：

基于curl数据采集之单页面采集函数get_html的使用

基于curl数据采集之单页面并行采集函数get_htmls的使用

已经可以得到了我们需要的html文件，现在需要处理得到的文件获取到我们需要的采集的数据。

对于html文档的解析，没有像XML那样的解析类，因为HTML文档有很多不成对的标签，很不严格。这个时候就需要采用其他的一些辅助类了，simplehtmldom是一个类似于JQuery方式操作HTML文档的解析类。可以很方便的得到想要的数据，可惜速度慢。这里不是我们这里讨论的重点，我主要使用正则来匹配我所需要的采集的数据，可以很快速的得到我需要采集的信息。

考虑到get_html可以判断返回的数据,但是get_htmls没有办法判断，为了方便调式和调用写了如下两个函数：

复制代码代码如下:

可以这样调用：

复制代码代码如下:

$url = 'http://www.baidu.com';
$html = get_html($url);
$matches = get_matches('!!',$html,'没有找到链接',true);
if($matches){
var_dump($matches);
}

或者这样调用：

复制代码代码如下:

$urls = array('http://www.baidu.com','http://www.hao123.com');
$htmls = get_htmls($urls);
foreach($htmls as $html){
     $matches = get_matches('!!',$html,'没有找到链接',true);
     if($matches){
         var_dump($matches);
     }
}

就可以得到所需的信息，无论单页面采集还是多页面采集，最终PHP还是只能处理一个页面，由于使用get_matches了，可以对返回的值进行判断真假，得到正确的数据，由于使用正则的时候遇到了超过正则回溯的问题，增加get_preg_err_msg来提示正则信息。

由于采集数据的时候，经常是采集列表页，根据列表页得到的内容页链接再采集内容页，或者更多的层次，那么循环嵌套会很多，对于代码的控制会感觉力不从心。那我们是否可以把采集列表页的代码和采集内容页的代码，或者更多的层次的采集代码分离开，甚至循环都简化呢？

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

python中CURL和python requests的相互转换如何实现May 03, 2023 pm 12:49 PM

curl和Pythonrequests都是发送HTTP请求的强大工具。虽然curl是一种命令行工具，可让您直接从终端发送请求，但Python的请求库提供了一种更具编程性的方式来从Python代码中发送请求。将curl转换为Pythonrequestscurl命令的基本语法如下所示：curl[OPTIONS]URL将curl命令转换为Python请求时，我们需要将选项和URL转换为Python代码。这是一个示例curlPOST命令：curl-XPOSThttps://example.com/api

Linux下更新curl版本教程！Mar 07, 2024 am 08:30 AM

在Linux下更新curl版本，您可以按照以下步骤进行操作：检查当前curl版本：首先，您需要确定当前系统中安装的curl版本。打开终端，并执行以下命令：curl--version该命令将显示当前curl的版本信息。确认可用的curl版本：在更新curl之前，您需要确定可用的最新版本。您可以访问curl的官方网站（curl.haxx.se）或相关的软件源，查找最新版本的curl。下载curl源代码：使用curl或浏览器，下载您选择的curl版本的源代码文件（通常为.tar.gz或.tar.bz2

PHP8.1发布：引入curl多个请求并发处理Jul 08, 2023 pm 09:13 PM

PHP8.1发布：引入curl多个请求并发处理近日，PHP官方发布了最新版本的PHP8.1，其中引入了一个重要的特性：curl多个请求并发处理。这个新特性为开发者提供了一个更加高效和灵活的方式来处理多个HTTP请求，极大地提升了性能和用户体验。在以往的版本中，处理多个请求往往需要通过创建多个curl资源，并使用循环来分别发送和接收数据。这种方式虽然能够实现目

从头到尾：如何使用php扩展cURL进行HTTP请求Jul 29, 2023 pm 05:07 PM

从头到尾：如何使用php扩展cURL进行HTTP请求引言：在Web开发中，经常需要与第三方API或其他远程服务器进行通信。而使用cURL进行HTTP请求是一种常见而强大的方式。本文将介绍如何使用php扩展cURL来执行HTTP请求，并提供一些实用的代码示例。一、准备工作首先，确保php已安装cURL扩展。可以在命令行执行php-m|grepcurl查

linux curl是什么Apr 20, 2023 pm 05:05 PM

在linux中，curl是一个非常实用的、用来与服务器之间传输数据的工具，是一个利用URL规则在命令行下工作的文件传输工具；它支持文件的上传和下载，是综合传输工具。curl提供了一大堆非常有用的功能，包括代理访问、用户认证、ftp上传下载、HTTP POST、SSL连接、cookie支持、断点续传等等。

PHP Curl中如何处理网页的 301 重定向？Mar 08, 2024 am 11:36 AM

PHPCurl中如何处理网页的301重定向？在使用PHPCurl发送网络请求时，时常会遇到网页返回的301状态码，表示页面被永久重定向。为了正确处理这种情况，我们需要在Curl请求中添加一些特定的选项和处理逻辑。下面将详细介绍在PHPCurl中如何处理网页的301重定向，并提供具体的代码示例。301重定向处理原理301重定向是指服务器返回了一个30

php curl怎么设置cookieSep 26, 2021 am 09:27 AM

php curl设置cookie的方法：1、创建PHP示例文件；2、通过“curl_setopt”函数设置cURL传输选项；3、在CURL中传递cookie即可。

PHP Fatal error: Call to undefined function curl_setopt()的解决方法Jun 23, 2023 am 08:18 AM

PHP是一种广泛使用的开源脚本语言，被许多网站所使用。然而，有时候你可能会遇到PHPFatalerror:Calltoundefinedfunctioncurl_setopt()这个问题，这个问题也许会使你的网站无法正常工作。那么这个问题到底是什么原因造成的呢？在PHP中，curl_setopt()是一个非常重要的函数，它用于通过curl扩展库

See all articles