• 技术文章 >后端开发 >PHP问题

    PHP抓取网页的方法有哪些

    VV2021-09-02 15:43:14原创148

    PHP抓取网页的方法有:1、file()函数;2、file_get_contents()函数;3、fopen()->fread()->fclose模式;4、curl方式;5、fsockopen()函数。

    本文操作环境:windows10系统、php 7.1、thinkpad t480电脑。

    我们在进行开发工作的时候通常会需要抓取一些网页文件,通常情况下我们都是使用PHP模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据。但是我们在拿到数据后并不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式将数据显现出来。

    下面我们简单说一下php抓取页面的几种方法及原理:

    一、 PHP抓取页面的主要方法:

    1. file()函数

    2. file_get_contents()函数

    3. fopen()->fread()->fclose()模式

    4.curl方式

    5. fsockopen()函数 socket模式

    二、PHP解析html或xml代码主要方式:

    1、file()函数

    <?php
    //定义url
    $url='http://t.qq.com';
    //fiel函数读取内容数组
    $lines_array=file($url);
    //拆分数组为字符串
    $lines_string=implode('',$lines_array);
    //输出内容,嘿嘿,大家也可以保存在自己的服务器上
    echo $lines_string;

    2、file_get_contents()函数

    使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

    <?php
    //定义url
    $url='http://t.qq.com';
     //file_get_contents函数远程读取数据
    $lines_string=file_get_contents($url);
     //输出内容,嘿嘿,大家也可以保存在自己的服务器上
    echo htmlspecialchars($lines_string);

    3、fopen()->fread()->fclose()模式

    <?php
    //定义url
    $url='http://t.qq.com';
     //fopen以二进制方式打开
    $handle=fopen($url,"rb");
    //变量初始化
    $lines_string="";
    //循环读取数据
    do{
        $data=fread($handle,1024);
        if(strlen($data)==0) {
            break;
        }
    $lines_string.=$data;
    }while(true);
    //关闭fopen句柄,释放资源
    fclose($handle);
     //输出内容,嘿嘿,大家也可以保存在自己的服务器上
    echo $lines_string;

    4、curl方式

    使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需 要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。

    <?php
    // 创建一个新cURL资源
    $url='http://t.qq.com';
    $ch=curl_init();
    $timeout=5;
    // 设置URL和相应的选项
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
    // 抓取URL
    $lines_string=curl_exec($ch);
    // 关闭cURL资源,并且释放系统资源
    curl_close($ch);
    //输出内容,嘿嘿,大家也可以保存在自己的服务器上
    echo $lines_string;

    5、fsockopen()函数 socket模式

    socket模式能否正确执行,也跟服务器的设置有关系,具体可以通过phpinfo查看服务器开启了哪些通信协议。

    <?php
    $fp = fsockopen("t.qq.com", 80, $errno, $errstr, 30);
    if (!$fp) {
        echo "$errstr ($errno)<br />\n";
    } else {
        $out = "GET / HTTP/1.1\r\n";
        $out .= "Host: t.qq.com\r\n";
        $out .= "Connection: Close\r\n\r\n";
        fwrite($fp, $out);
        while (!feof($fp)) {
            echo fgets($fp, 128);
        }
        fclose($fp);
    }

    PHP中文网17期线上班正式开班了(php培训)!热爱PHP编程的小伙伴们赶紧报名参加吧!

    以上就是PHP抓取网页的方法有哪些的详细内容,更多请关注php中文网其它相关文章!

    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    专题推荐:PHP 网页 方法
    上一篇:php删除图片的函数是什么 下一篇:php怎么安装fileinfo扩展
    线上培训班

    相关文章推荐

    • php怎么实现登陆后跳转网页• 一招教你使用ps将图片转成网页格式 (图文详解)• 学习中值得了解html网页的基本结构(总结)• html篇:网页中如何实现输入框效果(代码详解)

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网