>  기사  >  백엔드 개발  >  실용적인 크롤러 전투: PHP를 사용하여 JD.com 제품 정보를 크롤링합니다.

실용적인 크롤러 전투: PHP를 사용하여 JD.com 제품 정보를 크롤링합니다.

PHPz
PHPz원래의
2023-06-13 11:11:192086검색

오늘날의 전자상거래 시대에 JD.com은 중국 최대의 종합 전자상거래 회사 중 하나로서 매일 수만 개의 제품을 진열할 수 있습니다. JD.com은 대다수의 소비자에게 다양한 제품 선택과 유리한 가격 할인을 제공합니다. 그러나 때로는 JD 제품 정보를 일괄적으로 확보하고 신속하게 선별, 비교, 분석 등을 수행해야 하는 경우도 있습니다. 이때 크롤러 기술을 사용해야 합니다. 이 기사에서는 JD.com 제품 정보를 빠르게 크롤링하는 데 도움이 되는 크롤러를 작성하기 위해 PHP 언어를 사용하는 구현 방법을 소개합니다.

  1. 준비

먼저 PHP에 필요한 컬 확장 프로그램을 설치하고 일반적으로 사용되는 몇 가지 변수를 설정해야 합니다. 구체적인 단계는 다음과 같습니다.

먼저 터미널이나 powershell을 열고 다음 명령을 입력하여 컬 확장 패키지를 설치합니다.

sudo apt-get install php7.0-curl //ubuntu系统安装
brew install curl-openssl php-curl //macOS系统安装

다음으로 사용할 수 있도록 PHP 코드에 몇 가지 간단한 변수를 설정해야 합니다. 후속 코드에서. 예를 들어 JD.com의 액세스 주소를 나타내는 $jgname 변수와 각 제품의 액세스 주소를 나타내는 또 다른 $skulist 변수를 정의합니다. 코드는 다음과 같습니다.

$jgname= "https://list.jd.com/list.html?cat=1318,1486,1490&ev=exbrand_13910&sort=sort_rank_asc&trans=1&JL=3_%E5%93%81%E7%89%8C_%E5%B0%8F%E7%B1%B3%EF%BC%88MI%EF%BC%89#J_crumbsBar";
$skulist="https://item.jd.com/1285310.html";
  1. 제품 목록 가져오기

이제 환경과 필수 변수가 준비되었으므로 크롤러 작성을 시작할 수 있습니다. 먼저 대상 JD 제품 페이지의 제품 목록을 가져와야 합니다. 컬 도구와 정규식을 사용하여 JD.com 제품 페이지의 액세스 주소(예: $jgname)를 기반으로 대상 링크를 얻을 수 있습니다. 가격, 리뷰 수, 제품명, 제품 번호 등의 제품 정보를 각각 가져옵니다.

구체적인 코드는 다음과 같습니다.

$ch = curl_init();//初始化curl

curl_setopt($ch, CURLOPT_URL,$jgname);//设置url属性
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//设置是否将curl_exec()获取的信息以字符串返回,而不是直接输出
$result = curl_exec ($ch);//执行一个curl会话
curl_close ($ch);//关闭curl会话

preg_match_all("/<li .*?</li>/", $result, $matches);//正则表达式把需要的内容取出来,即匹配<li>标签

$goodsinfo=array();//创建一个商品列表

foreach ($matches[0] as $item) {
    //获取商品信息
    preg_match("/sku="(d+)"/",$item,$skuid);
    preg_match("/标题">s{0,}([dD]+?)s{0,}</a>/",$item,$titlename);
    preg_match("/<strong>¥</strong>[s
]{0,}<i>(d+.d+)</i>/",$item,$price);
    preg_match("/<divs{0,}class="p-commit">[s
]+<strong[^>]+>(d+)/",$item,$commentnum);
    preg_match("/<as{0,}href="([dD]+?)"/",$item,$link);

    //将商品信息存储到商品列表中
    $goods=array(
         "title"=>trim($titlename[1]),
         "price"=>trim($price[1]),
         "link"=>"https:".$link[1],
         "skuid"=>trim($skuid[1]),
         "commentnum"=>trim($commentnum[1])
    );
    array_push($goodsinfo,$goods);//将商品信息添加到商品列表

    //输出测试:打印商品信息
    echo $goods['title']." ".$goods['price']." ".$goods['commentnum']." ".$goods['link']."<br>";
}

위 코드에는 $goods'skuid'와 'link'에서 얻은 각 상품의 링크와 번호를 저장하고, 기타 유용한 정보(가격, 댓글 번호 등)를 저장합니다. .)을 $goods 배열에 넣습니다. 마지막으로 array_push() 함수를 통해 $goodsinfo 배열에 추가됩니다. 크롤링 결과를 쉽게 볼 수 있도록 루프 문을 사용하여 제품 목록 정보를 출력할 수 있습니다.

  1. 제품 세부정보 가져오기

이제 JD 제품 테이블 페이지에서 제품 목록 정보를 얻었습니다. 다음 단계는 각 제품의 세부 정보를 가져와 $goods 배열에 저장하는 것입니다. 이전 단계에서 $goods 배열에 있는 각 제품의 번호와 링크를 얻었습니다. 따라서 다음 단계는 각 링크를 열어 다양하고 유용한 제품 정보를 얻는 것입니다. 구체적인 코드는 다음과 같습니다.

foreach ($goodsinfo as &$goods) {
    //更新每个商品的网页链接
    $link="https://item.jd.com/".$goods['skuid'].".html";
    $goods['link']=$link;

    $canBuy=true;//官网上可以买
    //判断是否能够购买
    preg_match('/无货/',file_get_contents($link)) && ($canBuy=false);

    //利用curl工具打开网页链接,获得网页代码
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$link);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    $html = curl_exec ($ch);
    curl_close ($ch);
    //分析网页代码,使用正则表达式获取商品种类,价格,颜色,库存数量等数据,并保存
    preg_match_all('/<divs{0,}class="Ptable".*?>[s
]+<divs{0,}class="Ptable-item".*?>[s
]+([dD]*?)</div>/',$html,$items);
    preg_match_all('/<strong>商品名称</strong><em>(d.*)</em>/',$html,$item);
    $goods['title']=$item[1][0];
    echo $goods['title'];

    if($canBuy)
    {
        foreach ($items[1] as &$item) {
            //去掉html标记、空格、换行符
            $item=strip_tags($item);
            $item=str_replace(" ","",$item); 
            $item=str_replace("    ","",$item); 
            $item=str_replace("
","",$item);
            $item=str_replace("
","",$item); 

            //切割字符串,获取键值对
            preg_match_all('/([dD]*?):([dD]*?)[
]/',$item,$item2);
            if(count($item2[1])>0){
                for($i=0;$i<count($item2[1]);$i++){
                    if($item2[1][$i]=="价格"){
                        $goods['price']=$item2[2][$i];
                    }elseif($item2[1][$i]=="颜色"){
                        $goods['color']=$item2[2][$i];
                    }elseif($item2[1][$i]=="产地"){
                        $goods['producePlace']=$item2[2][$i];
                    }elseif($item2[1][$i]=="商品编号"){
                        $goods['goodsn']=$item2[2][$i];
                    }elseif($item2[1][$i]=="型号"){
                        $goods['model']=$item2[2][$i];
                    }elseif($item2[1][$i]=="商品毛重"){
                        $goods['grossWeight']=$item2[2][$i];
                    }elseif($item2[1][$i]=="规格"){
                        $goods['specifications']=$item2[2][$i];
                    }
                }
            }
        }
        //获取商品评论数
        preg_match_all('/<as{0,}href="#comment"s{0,}target="_self">s{0,}[dD]+?<strongs{0,}class="curr-num">(d*)</',$html,$comment);
        $goods['commentnum']=$comment[1][0];
    }
}

이 코드에서는 2단계와 유사한 기술을 사용합니다. 컬 도구를 사용하여 각 제품의 세부 링크를 얻은 다음 정규식을 사용하여 유용한 제품 정보를 얻습니다. 획득한 제품 세부정보를 다음과 같은 방법으로 출력할 수 있습니다.

foreach ($goodsinfo as &$goods) {
    echo $goods['skuid']." ".$goods['title']." ".$goods['price']." ".$goods['commentnum']." ".$goods['link']."<br>";
}

전체 프로세스는 이것이 전부입니다. 실제 애플리케이션에서는 예외 처리 추가, 요청 헤더 설정, 크롤링 속도 조정 등과 같이 실제 요구 사항에 따라 코드를 일부 조정하고 최적화할 수 있습니다. 즉, 이를 기반으로 JD 제품 정보를 획득하고 전자상거래 운영 및 분석을 더욱 지원하기 위한 안정적이고 효율적인 크롤러를 구축할 수 있습니다.

위 내용은 실용적인 크롤러 전투: PHP를 사용하여 JD.com 제품 정보를 크롤링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.