상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 10:19 PM

python목록데이터

최근 직장의 갑작스러운 변경으로 인해 새 사무실 위치가 현재 거주지에서 멀리 떨어져 있어 새 집을 임대하게 되었습니다.

저는 에이전시 e-mule을 타고 도시의 낯선 구석구석을 탐험하기 시작했습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

다양한 렌탈앱을 전환하는 과정에서 효율성이 정말 떨어져서 걱정이 많았어요:

우선 여자친구와 함께 살기 때문에 두 사람의 업무 거리를 고려해야 합니다. 동시에 플랫폼에서 통근 시간을 기준으로 집을 찾는 기능은 상대적으로 쓸모가 없습니다. 일부 플랫폼에서는 동시에 여러 위치 선택을 지원하지 않으며 일부 플랫폼에서는 통근 시간이 동일한 지점만 기계적으로 선택할 수 있습니다. 각 위치에서 사용자의 요구를 충족할 수 없습니다.

둘째, 임차인의 입장에서는 임대 플랫폼이 너무 많고, 각 플랫폼의 필터링 및 정렬 로직이 일관되지 않아 유사한 부동산에 대한 정보를 수평적으로 비교하기가 어렵습니다.

하지만 상관없습니다. 물론 프로그래머로서 문제를 해결하려면 프로그래머의 방법을 사용해야 합니다. 그래서 어젯밤에 저는 Python 스크립트를 사용하여 상하이 지역의 한 임대 플랫폼에서 총 20,000개가 넘는 모든 주택 정보를 얻었습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

이제 데이터를 크롤링하는 전체 과정을 여러분과 공유하겠습니다.

페이지를 분석하고 진입점을 찾으세요

먼저 플랫폼의 임대 페이지에 들어가면 홈페이지의 집 목록에 이미 필요한 대부분의 정보가 포함되어 있는 것을 볼 수 있으며, 이 정보는 돔에서 직접 얻을 수 있습니다. 이므로 요청을 시뮬레이션하여 웹페이지 데이터를 직접 수집하는 것을 고려해 보세요.

https://sh.lianjia.com/zufang/

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

그러므로 다음 단계는 URL을 얻는 방법을 고려하는 것입니다. 관찰을 통해 해당 지역에 20,000채가 넘는 주택이 있다는 사실을 발견했지만, 웹페이지를 통해 처음 100페이지의 데이터만 접근할 수 있습니다. 각 페이지에 표시되는 수의 상한은 30개입니다. 총 3,000개의 정보를 모두 얻는 것은 불가능합니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

하지만 필터 조건을 추가하면 이 문제를 해결할 수 있습니다. 필터 항목에서 "Jing'an"을 선택하고 다음 URL을 입력하세요.

https://sh.lianjia.com/zufang/jingan/

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

해당 지역에 2,000채 이상의 주택이 있으며, 이론상으로는 75개의 데이터 페이지와 페이지당 30개의 항목이 있습니다. 모든 데이터에 접근할 수 있습니다. 따라서 각 지역의 주택데이터를 별도로 획득함으로써 도시 내 모든 데이터를 얻을 수 있다.

https://sh.lianjia.com/zufang/jingan/pg2/

두 번째 페이지 버튼을 클릭하신 후 위의 URL을 입력하시면, pg 이후 번호를 수정하시면 해당 페이지 번호를 입력하실 수 있는 것을 확인하실 수 있습니다.

그러나 여기서 문제가 발견됩니다. 동일한 페이지 수를 방문할 때마다 얻는 데이터가 다르기 때문에 수집된 데이터가 중복될 수 있습니다. 따라서 정렬 조건에서 "Latest Added"를 클릭하고 다음 링크를 입력합니다.

https://sh.lianjia.com/zufang/jingan/pg2rco11/

이 정렬 방법으로 얻은 데이터의 순서는 안정적입니다. 이 시점에서 우리의 아이디어는 먼저 각 작은 영역의 첫 번째를 방문하는 것입니다. 한 페이지, 첫 번째 페이지를 통해 현재 영역의 최대 페이지 수를 가져온 다음 시뮬레이션된 요청에 액세스하여 각 페이지에 액세스하여 모든 데이터를 가져옵니다.

데이터 크롤링

아이디어가 있으면 코드 작성을 시작해야 합니다. 먼저 모든 링크를 수집해야 합니다.

# 所有小地区对应的标识
list=['jingan','xuhui','huangpu','changning','putuo','pudong','baoshan','hongkou','yangpu','minhang','jinshan','jiading','chongming','fengxian','songjiang','qingpu']
# 存放所有链接
urls = []
for a in list:
urls.append('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a))
# 设置请求头，避免ip被ban
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
# 获取当前小地区第1页的dom信息
res = requests.get('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a), headers=headers)
content = res.text
soup = BeautifulSoup(content, 'html.parser')
# 获取当前页面的最大页数
page_num = int(soup.find('div', attrs={'class': 'content__pg'}).attrs['data-totalpage'])
for i in range(2,page_num+1):
# 将所有链接保存到urls中
urls.append('https://sh.lianjia.com/zufang/{}/pg{}rco11/'.format(a,i))

그 다음에는 다음에서 얻은 URL을 처리해야 합니다. 이전 단계에서 하나씩 링크의 데이터를 얻으려면 코드는 다음과 같습니다.

num=1
for url in urls:
print("正在处理第{}页数据...".format(str(num)))
res1 = requests.get(url, headers=headers)
content1 = res1.text
soup1 = BeautifulSoup(content1, 'html.parser')
infos = soup1.find('div', {'class': 'content__list'}).find_all('div', {'class': 'content__list--item'})

데이터 정리 및 파일 내보내기

페이지 구조를 관찰하면 각 요소의 저장 위치를 알 수 있습니다. 해당 페이지 요소를 검색하고 필요한 정보를 얻습니다.

상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.

여기에 전체 코드가 첨부되어 있습니다. 관심 있는 친구는 자신의 필요에 따라 링크의 지역 식별자와 작은 지역 식별자를 교체한 다음 자신의 지역 정보를 얻을 수 있습니다. 다른 렌탈 플랫폼의 크롤링 방법은 대부분 유사하므로 자세한 내용은 다루지 않겠습니다.

import time, re, csv, requests
import codecs
from bs4 import BeautifulSoup

print("****处理开始****")
with open(r'..sh.csv', 'wb+')as fp:
fp.write(codecs.BOM_UTF8)
f = open(r'..sh.csv','w+',newline='', encoding='utf-8')
writer = csv.writer(f)
urls = []

# 所有小地区对应的标识
list=['jingan','xuhui','huangpu','changning','putuo','pudong','baoshan','hongkou','yangpu','minhang','jinshan','jiading','chongming','fengxian','songjiang','qingpu']
# 存放所有链接
urls = []
for a in list:
urls.append('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a))
# 设置请求头，避免ip被ban
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
# 获取当前小地区第1页的dom信息
res = requests.get('https://sh.lianjia.com/zufang/{}/pg1rco11/'.format(a), headers=headers)
content = res.text
soup = BeautifulSoup(content, 'html.parser')
# 获取当前页面的最大页数
page_num = int(soup.find('div', attrs={'class': 'content__pg'}).attrs['data-totalpage'])
for i in range(2,page_num+1):
# 将所有链接保存到urls中
urls.append('https://sh.lianjia.com/zufang/{}/pg{}rco11/'.format(a,i))

num=1
for url in urls:
# 模拟请求
print("正在处理第{}页数据...".format(str(num)))
res1 = requests.get(url, headers=headers)
content1 = res1.text
soup1 = BeautifulSoup(content1, 'html.parser')
# 读取页面中数据
infos = soup1.find('div', {'class': 'content__list'}).find_all('div', {'class': 'content__list--item'})

# 数据处理
for info in infos:
house_url = 'https://sh.lianjia.com' + info.a['href']
title = info.find('p', {'class': 'content__list--item--title'}).find('a').get_text().strip()
group = title.split()[0][3:]
price = info.find('span', {'class': 'content__list--item-price'}).get_text()
tag = info.find('p', {'class': 'content__list--item--bottom oneline'}).get_text()
mixed = info.find('p', {'class': 'content__list--item--des'}).get_text()
mix = re.split(r'/', mixed)
address = mix[0].strip()
area = mix[1].strip()
door_orientation = mix[2].strip()
style = mix[-1].strip()
region = re.split(r'-', address)[0]
writer.writerow((house_url, title, group, price, area, address, door_orientation, style, tag, region))
time.sleep(0)
print("第{}页数据处理完毕，共{}条数据。".format(str(num), len(infos)))
num+=1

f.close()
print("****全部完成****")

일부 작업 후 다양한 지역 임대 플랫폼에서 완전한 주택 정보를 얻었습니다. 이 시점에서 우리는 이미 몇 가지 기본 필터링 방법을 통해 필요한 데이터를 얻을 수 있습니다.

위 내용은 상하이에서 집을 빌리기 위해 Python을 사용하여 하룻밤 사이에 20,000개가 넘는 주택 정보를 크롤링했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

파이썬 : 자동화, 스크립팅 및 작업 관리Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

파이썬과 시간 : 공부 시간을 최대한 활용Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

파이썬 : 게임, Guis 등Apr 13, 2025 am 12:14 AM

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.