>  기사  >  백엔드 개발  >  상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

WBOY
WBOY앞으로
2023-04-12 22:19:201195검색

최근 직장의 갑작스러운 변경으로 인해 새 사무실 위치가 현재 거주지에서 멀리 떨어져 있어 새 집을 임대하게 되었습니다.

저는 에이전시 e-mule을 타고 도시의 낯선 구석구석을 탐험하기 시작했습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

다양한 렌탈앱을 전환하는 과정에서 효율성이 정말 떨어져서 걱정이 많았어요:

우선 여자친구와 함께 살기 때문에 두 사람의 업무 거리를 고려해야 합니다. 동시에 플랫폼에서 통근 시간을 기준으로 집을 찾는 기능은 상대적으로 쓸모가 없습니다. 일부 플랫폼에서는 동시에 여러 위치 선택을 지원하지 않으며 일부 플랫폼에서는 통근 시간이 동일한 지점만 기계적으로 선택할 수 있습니다. 각 위치에서 사용자의 요구를 충족할 수 없습니다.

둘째, 임차인의 입장에서는 임대 플랫폼이 너무 많고, 각 플랫폼의 필터링 및 정렬 로직이 일관되지 않아 유사한 부동산에 대한 정보를 수평적으로 비교하기가 어렵습니다.

하지만 상관없습니다. 물론 프로그래머로서 문제를 해결하려면 프로그래머의 방법을 사용해야 합니다. 그래서 어젯밤에 저는 Python 스크립트를 사용하여 상하이 지역의 한 임대 플랫폼에서 총 20,000개가 넘는 모든 주택 정보를 얻었습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

이제 데이터를 크롤링하는 전체 과정을 여러분과 공유하겠습니다.

페이지를 분석하고 진입점을 찾으세요

먼저 플랫폼의 임대 페이지에 들어가면 홈페이지의 집 목록에 이미 필요한 대부분의 정보가 포함되어 있는 것을 볼 수 있으며, 이 정보는 돔에서 직접 얻을 수 있습니다. 이므로 요청을 시뮬레이션하여 웹페이지 데이터를 직접 수집하는 것을 고려해 보세요.

https://sh.lianjia.com/zufang/

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

그러므로 다음 단계는 URL을 얻는 방법을 고려하는 것입니다. 관찰을 통해 해당 지역에 20,000채가 넘는 주택이 있다는 사실을 발견했지만, 웹페이지를 통해 처음 100페이지의 데이터만 접근할 수 있습니다. 각 페이지에 표시되는 수의 상한은 30개입니다. 총 3,000개의 정보를 모두 얻는 것은 불가능합니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

하지만 필터 조건을 추가하면 이 문제를 해결할 수 있습니다. 필터 항목에서 "Jing'an"을 선택하고 다음 URL을 입력하세요.

https://sh.lianjia.com/zufang/jingan/

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

해당 지역에 2,000채 이상의 주택이 있으며, 이론상으로는 75개의 데이터 페이지와 페이지당 30개의 항목이 있습니다. 모든 데이터에 접근할 수 있습니다. 따라서 각 지역의 주택데이터를 별도로 획득함으로써 도시 내 모든 데이터를 얻을 수 있다.

https://sh.lianjia.com/zufang/jingan/pg2/

두 번째 페이지 버튼을 클릭하신 후 위의 URL을 입력하시면, pg 이후 번호를 수정하시면 해당 페이지 번호를 입력하실 수 있는 것을 확인하실 수 있습니다.

그러나 여기서 문제가 발견됩니다. 동일한 페이지 수를 방문할 때마다 얻는 데이터가 다르기 때문에 수집된 데이터가 중복될 수 있습니다. 따라서 정렬 조건에서 "Latest Added"를 클릭하고 다음 링크를 입력합니다.

https://sh.lianjia.com/zufang/jingan/pg2rco11/

이 정렬 방법으로 얻은 데이터의 순서는 안정적입니다. 이 시점에서 우리의 아이디어는 먼저 각 작은 영역의 첫 번째를 방문하는 것입니다. 한 페이지, 첫 번째 페이지를 통해 현재 영역의 최대 페이지 수를 가져온 다음 시뮬레이션된 요청에 액세스하여 각 페이지에 액세스하여 모든 데이터를 가져옵니다.

데이터 크롤링

아이디어가 있으면 코드 작성을 시작해야 합니다. 먼저 모든 링크를 수집해야 합니다.

# 所有小地区对应的标识
list=['jingan','xuhui','huangpu','changning','putuo','pudong','baoshan','hongkou','yangpu','minhang','jinshan','jiading','chongming','fengxian','songjiang','qingpu']
# 存放所有链接
urls = []
for a in list:
urls.append('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a))
# 设置请求头,避免ip被ban
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
# 获取当前小地区第1页的dom信息
res = requests.get('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a), headers=headers)
content = res.text
soup = BeautifulSoup(content, 'html.parser')
# 获取当前页面的最大页数
page_num = int(soup.find('div', attrs={'class': 'content__pg'}).attrs['data-totalpage'])
for i in range(2,page_num+1):
# 将所有链接保存到urls中
urls.append('https://sh.lianjia.com/zufang/{}/pg{}rco11/'.format(a,i))

그 다음에는 다음에서 얻은 URL을 처리해야 합니다. 이전 단계에서 하나씩 링크의 데이터를 얻으려면 코드는 다음과 같습니다.

num=1
for url in urls:
print("正在处理第{}页数据...".format(str(num)))
res1 = requests.get(url, headers=headers)
content1 = res1.text
soup1 = BeautifulSoup(content1, 'html.parser')
infos = soup1.find('div', {'class': 'content__list'}).find_all('div', {'class': 'content__list--item'})

데이터 정리 및 파일 내보내기

페이지 구조를 관찰하면 각 요소의 저장 위치를 ​​알 수 있습니다. 해당 페이지 요소를 검색하고 필요한 정보를 얻습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

여기에 전체 코드가 첨부되어 있습니다. 관심 있는 친구는 자신의 필요에 따라 링크의 지역 식별자와 작은 지역 식별자를 교체한 다음 자신의 지역 정보를 얻을 수 있습니다. 다른 렌탈 플랫폼의 크롤링 방법은 대부분 유사하므로 자세한 내용은 다루지 않겠습니다.

import time, re, csv, requests
import codecs
from bs4 import BeautifulSoup

print("****处理开始****")
with open(r'..sh.csv', 'wb+')as fp:
fp.write(codecs.BOM_UTF8)
f = open(r'..sh.csv','w+',newline='', encoding='utf-8')
writer = csv.writer(f)
urls = []

# 所有小地区对应的标识
list=['jingan','xuhui','huangpu','changning','putuo','pudong','baoshan','hongkou','yangpu','minhang','jinshan','jiading','chongming','fengxian','songjiang','qingpu']
# 存放所有链接
urls = []
for a in list:
urls.append('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a))
# 设置请求头,避免ip被ban
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
# 获取当前小地区第1页的dom信息
res = requests.get('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a), headers=headers)
content = res.text
soup = BeautifulSoup(content, 'html.parser')
# 获取当前页面的最大页数
page_num = int(soup.find('div', attrs={'class': 'content__pg'}).attrs['data-totalpage'])
for i in range(2,page_num+1):
# 将所有链接保存到urls中
urls.append('https://sh.lianjia.com/zufang/{}/pg{}rco11/'.format(a,i))

num=1
for url in urls:
# 模拟请求
print("正在处理第{}页数据...".format(str(num)))
res1 = requests.get(url, headers=headers)
content1 = res1.text
soup1 = BeautifulSoup(content1, 'html.parser')
# 读取页面中数据
infos = soup1.find('div', {'class': 'content__list'}).find_all('div', {'class': 'content__list--item'})

# 数据处理
for info in infos:
house_url = 'https://sh.lianjia.com' + info.a['href']
title = info.find('p', {'class': 'content__list--item--title'}).find('a').get_text().strip()
group = title.split()[0][3:]
price = info.find('span', {'class': 'content__list--item-price'}).get_text()
tag = info.find('p', {'class': 'content__list--item--bottom oneline'}).get_text()
mixed = info.find('p', {'class': 'content__list--item--des'}).get_text()
mix = re.split(r'/', mixed)
address = mix[0].strip()
area = mix[1].strip()
door_orientation = mix[2].strip()
style = mix[-1].strip()
region = re.split(r'-', address)[0]
writer.writerow((house_url, title, group, price, area, address, door_orientation, style, tag, region))
time.sleep(0)
print("第{}页数据处理完毕,共{}条数据。".format(str(num), len(infos)))
num+=1

f.close()
print("****全部完成****")

일부 작업 후 다양한 지역 임대 플랫폼에서 완전한 주택 정보를 얻었습니다. 이 시점에서 우리는 이미 몇 가지 기본 필터링 방법을 통해 필요한 데이터를 얻을 수 있습니다.

위 내용은 상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제