Python으로 구현한 실제 크롤러 전투: 58 도시 크롤러-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python으로 구현한 실제 크롤러 전투: 58 도시 크롤러

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2023 am 11:36 AM

python비열한같은 도시

인터넷의 급속한 발전으로 사람들은 다양한 채널을 통해 필요한 정보를 얻을 수 있습니다. 정보화 시대에 웹 크롤러는 없어서는 안 될 도구가 되었습니다. 이번 글에서는 Python-58 city Crawler의 실제 크롤러를 소개하겠습니다.

1. 크롤러 소개

웹 크롤러는 HTTP 프로토콜을 통해 웹 페이지에 액세스하고 필요한 데이터를 추출하는 자동화된 프로그램입니다. 인터넷에는 많은 데이터가 있지만 API를 통해 모든 데이터를 사용할 수 있는 것은 아닙니다. 따라서 크롤러는 데이터를 얻는 중요한 수단이 되었습니다.

크롤러의 작업 흐름은 일반적으로 세 단계로 나뉩니다.

웹 페이지 다운로드: 일반적으로 요청 라이브러리를 사용하여 HTTP 프로토콜을 통해 웹 페이지를 다운로드합니다.
웹 페이지 구문 분석: 다운로드한 웹 페이지를 구문 분석하고 필요한 내용을 추출합니다. 데이터는 일반적으로 BeautifulSoup4 라이브러리를 사용합니다. 구현
저장 데이터: 필요한 데이터를 로컬 또는 데이터베이스에 저장합니다.

2. 실용적인 크롤러 전투: 58 시티 크롤러

58 시티는 국가별 정보 사이트로, 사용자가 제품 정보, 임대 정보, 채용 정보 등을 게시할 수 있습니다. 이번 글에서는 58 city 크롤러를 Python으로 구현하여 임대 정보를 얻는 방법을 소개하겠습니다.

웹사이트 분석

크롤링하기 전에 58.com 웹사이트를 분석해야 합니다. 렌탈 페이지에 들어가 원하시는 도시를 선택하시면 해당 URL에 도시 정보가 포함되어 있는 것을 확인하실 수 있습니다. 예를 들어 대여 페이지의 URL은 "https://[city pinyin].58.com/zufang/"입니다. URL의 도시 병음을 수정하면 다른 도시의 임대 정보를 크롤링할 수 있습니다.

대여 페이지를 열면 페이지 구조가 검색창과 임대 정보 목록 두 부분으로 나누어져 있는 것을 확인할 수 있습니다. 임대정보 목록에는 각 임대정보의 명칭, 임대료, 면적, 지리적 위치, 주택유형 및 기타 정보가 포함됩니다.

크롤러 작성

58.com 웹사이트를 분석한 후 크롤러를 작성하면 됩니다. 먼저 요청과 BeautifulSoup4 라이브러리를 가져와야 합니다. 코드는 다음과 같습니다.

import requests
from bs4 import BeautifulSoup

다음으로, 각 도시의 임대 정보를 얻으려면 올바른 URL을 구성해야 합니다. 코드는 다음과 같습니다.

city_pinyin = "bj"
url = "https://{}.58.com/zufang/".format(city_pinyin)

올바른 URL을 얻은 후 요청 라이브러리를 사용하여 페이지의 HTML 소스 코드를 얻을 수 있습니다. 코드는 다음과 같습니다.

response = requests.get(url)
html = response.text

이제 대여 페이지의 HTML 소스 코드를 얻었으므로 BeautifulSoup4 라이브러리를 사용하여 HTML 소스 코드를 구문 분석하고 필요한 데이터를 추출해야 합니다. 페이지 구조에 따르면 임대 정보 목록은 "list-wrap" 클래스의 div 태그에 포함되어 있습니다. BeautifulSoup4 라이브러리의 find_all() 함수를 통해 "list-wrap" 클래스가 있는 모든 div 태그를 얻을 수 있습니다. 코드는 다음과 같습니다.

soup = BeautifulSoup(html, "lxml")
div_list = soup.find_all("div", class_="list-wrap")

div 태그를 얻은 후 태그 목록을 순회하여 각 임대 정보의 데이터를 추출할 수 있습니다. 페이지 구조에 따르면, 임대 정보의 각 부분은 제목, 임대료, 지역, 지리적 위치, 주택 유형 및 기타 정보를 포함하여 클래스 "des"가 있는 div 태그에 포함되어 있습니다. 코드는 다음과 같습니다:

for div in div_list:
    info_list = div.find_all("div", class_="des")
    for info in info_list:
        # 提取需要的租房数据

for 루프에서 find_all() 함수를 다시 사용하여 "des" 클래스가 있는 모든 div 태그를 가져왔습니다. 다음으로 이러한 div 태그를 탐색하여 필요한 임대 데이터를 추출해야 합니다. 예를 들어 임대 정보의 제목과 기타 정보를 추출하는 코드는 다음과 같습니다.

title = info.find("a", class_="t").text
rent = info.find("b").text
size = info.find_all("p")[0].text.split("/")[1]
address = info.find_all("p")[0].text.split("/")[0]
house_type = info.find_all("p")[1].text

위 코드를 통해 58개 도시 임대 페이지의 각 임대 정보를 성공적으로 얻어 변수에 캡슐화했습니다. 다음으로 각 렌털 정보의 변수를 출력하여 콘솔에 출력되는 데이터를 확인할 수 있습니다. 예:

print("标题：{}".format(title))
print("租金：{}".format(rent))
print("面积：{}".format(size))
print("地理位置：{}".format(address))
print("房屋类型：{}".format(house_type))

3. 요약

이 글에서는 Python의 실제 크롤러인 58 city Crawler를 소개합니다. 크롤러를 구현하기 전에 먼저 58개 도시 임대 페이지를 분석하여 임대 정보를 얻을 수 있는 URL과 추출해야 할 데이터를 결정했습니다. 그런 다음 요청과 BeautifulSoup4 라이브러리를 사용하여 크롤러를 구현했습니다. 크롤러를 통해 58개 도시 임대 페이지의 임대 정보를 성공적으로 획득하고 이를 변수로 캡슐화하여 후속 데이터 처리를 용이하게 했습니다.

위 내용은 Python으로 구현한 실제 크롤러 전투: 58 도시 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 어레이에 어떤 데이터 유형을 저장할 수 있습니까?Apr 27, 2025 am 12:11 AM

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

파이썬 어레이에 잘못된 데이터 유형의 값을 저장하려고하면 어떻게됩니까?Apr 27, 2025 am 12:10 AM

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까?Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

스크립트가 잘못된 파이썬 버전으로 실행되는지 확인해야합니까?Apr 27, 2025 am 12:01 AM

thescriptIsrunningwithHongpyThonversionDueCorRectDefaultTerpretersEttings.tofixThis : 1) checktheDefaultPyThonVersionUsingPyThon-VersionorPyThon3- version.2) usvirtual-ErondmentsBythePython.9-Mvenvmyenv, 활성화, 및 파괴

파이썬 어레이에서 수행 할 수있는 일반적인 작업은 무엇입니까?Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousOperations : 1) SlicingExtractsSubsets, 2) 추가/확장 어드먼트, 3) 삽입 값 삽입 ATSpecificPositions, 4) retingdeletesElements, 5) 분류/ReversingChangesOrder 및 6) ListsompectionScreateNewListSbasedOnsistin

어떤 유형의 응용 프로그램에서 Numpy Array가 일반적으로 사용됩니까?Apr 26, 2025 am 12:13 AM

NumpyArraysareSentialplosplicationSefficationSefficientNumericalcomputationsanddatamanipulation. Theyarcrucialindatascience, MachineLearning, Physics, Engineering 및 Financeduetotheiribility에 대한 handlarge-scaledataefficivally. forexample, Infinancialanyaly

파이썬의 목록 위의 배열을 언제 사용 하시겠습니까?Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOveralistInpyThonWhendealingwithhomogeneousData, Performance-CriticalCode, OrinterFacingwithCcode.1) HomogeneousData : ArraysSaveMemorywithtypepletement.2) Performance-CriticalCode : arraysofferbetterporcomanceFornumericalOperations.3) Interf

모든 목록 작업은 배열에 의해 지원됩니까? 왜 또는 왜 그렇지 않습니까?Apr 26, 2025 am 12:05 AM

아니요, NOTALLLISTOPERATIONARESUPPORTEDBYARRARES, andVICEVERSA.1) ArraySDONOTSUPPORTDYNAMICOPERATIONSLIKEPENDORINSERTWITHUTRESIGING, WHITHIMPACTSPERFORMANCE.2) ListSDONOTEECONSTANTTIMECOMPLEXITEFORDITITICCESSLIKEARRAYSDO.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.