오늘날에는 집을 임대하려는 사람들의 수요가 계속 증가함에 따라 Lianjia.com, 58.com 등 다양한 부동산 정보 사이트의 등장도 빠르게 발전했습니다. 임차인에게는 임대정보를 빠르게 얻는 것이 매우 중요합니다. 이 경우 Lianjia 임대 정보를 크롤링하는 PHP 크롤러를 작성하는 것이 효율적이고 편리한 솔루션입니다.
이 기사에서는 Lianjia 임대 정보를 크롤링하는 간단하고 이해하기 쉬운 PHP 방법을 소개하여 모든 사람이 필요한 정보를 신속하게 얻고 통합하여 만족스러운 임대 정보를 더 잘 찾을 수 있도록 합니다.
1. 웹사이트 소스코드 크롤링
우선, 크롤러에게 가장 중요한 것은 대상 웹페이지의 소스코드를 얻는 것입니다. 따라서 Lianjia Rental 홈페이지의 소스 코드를 얻으려면 PHP의 cURL 기능을 사용해야 합니다. 구체적인 코드는 다음과 같습니다.
$url = "https://sz.lianjia.com/zufang/"; // 链家租房首页网址 $ch = curl_init(); //初始化curl curl_setopt($ch, CURLOPT_URL, $url); //设置爬取网页url curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//不直接输出网页内容 $data = curl_exec($ch);//执行curl curl_close($ch); echo $data;//输出网页源代码
위 코드는 컬을 초기화하기 위해 컬_init() 함수를 사용합니다. 컬_setopt() 함수는 얻어야 할 대상 웹페이지 URL을 설정하며 웹페이지 내용을 직접 출력하지는 않지만 저장합니다. $data 변수에 있습니다. 그런 다음, 컬_exec() 함수를 사용하여 컬을 실행하고 웹 페이지 소스 코드를 얻습니다. 마지막으로, 컬을 닫으려면 컬_close() 함수를 사용하십시오.
2. 웹페이지 소스코드 분석
Lianjia 렌탈 홈페이지의 소스코드를 성공적으로 획득한 후에는 이를 분석하여 필요한 렌탈 정보를 찾아야 합니다. 분석 중에 필요한 정보를 일치시키기 위해 정규식을 사용해야 합니다.
Lianjia 렌탈 홈페이지의 소스 코드에서 렌탈 정보가 "content__list--item" 클래스의 div에 포함되어 있고 각 렌탈 정보는 독립적인 div이므로 정규식을 사용하여 이를 일치시킬 수 있음을 알 수 있습니다. div. 구체적인 정규식은 다음과 같습니다.
$preg = '/<div class="content__list--item".*?>.*?<div class="content__list--item--main">.*?<span class="content__list--item-price"><em>(.*?)</em>元/月</span>.*?<a.*?>(.*?)</a>.*?<span class="content__list--item--des">(.*?)</span>.*?<i>(.*?)</i>.*?</div>.*?</div>/si'; //匹配div,获取每个信息的价格、标题、描述、地区
위 정규식에서는 임대 정보가 포함된 div 태그를 일치시키고, 특정 정규식을 사용하여 가격, 제목, 설명 및 지역 정보나 요소가 포함된 다른 div 태그를 일치시킵니다. 그 중 si 모드 수정자는 여러 줄의 텍스트를 쉽게 일치시키는 데 사용됩니다.
3. 웹페이지 소스코드 분석
정규식을 사용하여 모든 임대 정보가 위치한 div를 일치시킨 후, 임대료, 주소, 등. 여기서는 PHP의 DOMDocument 클래스를 사용하여 HTML 태그를 조작할 수 있습니다.
HTML 태그를 구문 분석하기 위해 DOMDocument 클래스를 사용하는 구체적인 코드는 다음과 같습니다.
$dom = new DOMDocument(); $dom->loadHTML($data); $domxpath = new DOMXPath($dom); $element = $domxpath->query('//div[@class="content__list--item"]'); foreach($element as $el){ //在这里做具体解析操作 }
위 코드에서는 먼저 DOMDocument 클래스를 사용하여 얻은 웹 페이지 소스 코드를 DOM에 로드하고 DOMXPath 클래스를 사용하여 DOM에서 xpath 쿼리를 수행합니다. 그런 다음 query() 함수를 사용하여 모든 임대 정보가 있는 div 요소를 쿼리하고, foreach() 함수를 사용하여 각 임대 정보가 있는 div 요소를 순회합니다.
4. 필수 정보 추출
각 렌탈 정보가 위치한 div를 순회한 후 추가로 정규식을 사용하여 가격, 주소 등 필수 정보를 추출해야 합니다. 구체적인 코드는 다음과 같습니다.
//提取价格 $price = $domxpath->query('.//span[@class="content__list--item-price"]/em',$el)->item(0)->nodeValue; //提取标题 $title = $domxpath->query('.//a',$el)->item(0)->nodeValue; //提取描述 $desc = $domxpath->query('.//span[@class="content__list--item--des"]',$el)->item(0)->nodeValue; //提取地区 $region = $domxpath->query('.//i',$el)->item(0)->nodeValue;
위 코드에서는 query() 함수를 사용하여 각 임대 정보가 위치한 div 요소에서 필요한 정보의 HTML 요소 노드를 쿼리하고 item() 함수를 사용합니다. 노드 목록에서 요소의 첫 번째 요소를 선택한 다음 nodeValue 속성을 사용하여 해당 요소의 텍스트 콘텐츠를 가져옵니다.
5. 필수 정보 통합
마지막으로 모든 필수 정보를 연관 배열로 통합합니다.
$info = ['price'=>$price, 'title'=>$title, 'desc'=>$desc, 'region'=>$region];
다음으로 통합된 정보를 배열에 추가하고, 임대 정보가 위치한 div 요소를 모두 순회한 후 전체 배열을 출력합니다.
$result[] = $info;// 将每个房屋信息数组添加到$result数组 } print_r($result);//输出所有租房信息数组
위 작업을 통해 Lianjia 렌탈 웹사이트에서 모든 관련 정보를 쉽게 얻을 수 있어 렌탈에 큰 편의를 제공합니다.
요약
이 글의 소개를 통해 누구나 PHP로 Lianjia 임대 정보를 크롤링하는 방법을 쉽게 익힐 수 있다고 믿습니다. 구체적으로, 우리는 cURL 함수를 사용하여 웹 페이지 소스 코드를 얻고, 정규 표현식을 사용하여 필요한 정보가 있는 HTML 요소를 일치시키고, DOMDocument 클래스를 사용하여 HTML 태그를 구문 분석하고, 마지막으로 필요한 정보를 연관 요소로 통합해야 합니다. array 를 입력하고 전체 배열을 출력하여 최종 필수 임대 정보를 얻습니다.
위 내용은 PHP로 Lianjia 임대 정보를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!