python爬取安居客二手房网站数据方法分享-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

python爬取安居客二手房网站数据方法分享

小云云

Jan 09, 2018 pm 01:20 PM

pythondata

本文主要为大家带来一篇python爬取安居客二手房网站数据(实例讲解)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧，希望能帮助到大家。

现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！

在上面这个页面中，我们可以看到一条条的房源信息，由上可以看到网页一条条的房源信息，点击进去后就会发现：

房源的详细信息。OK！那么我们要干嘛呢，就是把郑州这个地区的二手房房源信息都能拿到手，可以保存到数据库中，用来干嘛呢，作为一个地理人，还是有点用处的，这次就不说了好，正式开始，首先我采用python3.6 中的requests，BeautifulSoup模块来进行爬取页面，首先由requests模块进行请求：

# 网页的请求头
header = {
&#39;user-agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36&#39;
}
# url链接
url = &#39;https://zhengzhou.anjuke.com/sale/&#39;
response = requests.get(url, headers=header)
print(response.text)

执行后就会得到这个网站的html代码了

通过分析可以得到每个房源都在class="list-item"的 li 标签中，那么我们就可以根据BeautifulSoup包进行提取

# 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
soup = BeautifulSoup(response.text, &#39;html.parser&#39;)
result_li = soup.find_all(&#39;li&#39;, {&#39;class&#39;: &#39;list-item&#39;})
for i in result_li:
  print(i)

通过打印就能进一步减少了code量，好，继续提取

# 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
soup = BeautifulSoup(response.text, &#39;html.parser&#39;)
result_li = soup.find_all(&#39;li&#39;, {&#39;class&#39;: &#39;list-item&#39;})
# 进行循环遍历其中的房源详细列表
for i in result_li:
  # 由于BeautifulSoup传入的必须为字符串，所以进行转换
  page_url = str(i)
  soup = BeautifulSoup(page_url, &#39;html.parser&#39;)
  # 由于通过class解析的为一个列表，所以只需要第一个参数
  result_href = soup.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;houseListTitle&#39;})[0]
  print(result_href.attrs[&#39;href&#39;])

这样，我们就能看到一个个的url了，是不是很喜欢

好了，按正常的逻辑就要进入页面开始分析详细页面了，但是爬取完后如何进行下一页的爬取呢所以，我们就需要先分析该页面是否有下一页

同样的方法就可以发现下一页同样是如此的简单，那么咱们就可以还是按原来的配方原来的味道继续

# 进行下一页的爬取
result_next_page = soup.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;aNxt&#39;})
if len(result_next_page) != 0:
  print(result_next_page[0].attrs[&#39;href&#39;])
else:
  print(&#39;没有下一页了&#39;)

因为当存在下一页的时候，网页中就是一个a标签，如果没有的话，就会成为i标签了，所以这样的就行，因此，我们就能完善一下，将以上这些封装为一个函数

import requests
from bs4 import BeautifulSoup

# 网页的请求头
header = {
  &#39;user-agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36&#39;
}

def get_page(url):
  response = requests.get(url, headers=header)

  # 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
  soup = BeautifulSoup(response.text, &#39;html.parser&#39;)
  result_li = soup.find_all(&#39;li&#39;, {&#39;class&#39;: &#39;list-item&#39;})

  # 进行下一页的爬取
  result_next_page = soup.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;aNxt&#39;})
  if len(result_next_page) != 0:
    # 函数进行递归
    get_page(result_next_page[0].attrs[&#39;href&#39;])
  else:
    print(&#39;没有下一页了&#39;)

  # 进行循环遍历其中的房源详细列表
  for i in result_li:
    # 由于BeautifulSoup传入的必须为字符串，所以进行转换
    page_url = str(i)
    soup = BeautifulSoup(page_url, &#39;html.parser&#39;)
    # 由于通过class解析的为一个列表，所以只需要第一个参数
    result_href = soup.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;houseListTitle&#39;})[0]
    # 先不做分析，等一会进行详细页面函数完成后进行调用
    print(result_href.attrs[&#39;href&#39;])


if __name__ == &#39;__main__&#39;:
  # url链接
  url = &#39;https://zhengzhou.anjuke.com/sale/&#39;
  # 页面爬取函数调用
  get_page(url)

好了，那么咱们就开始详细页面的爬取了

哎，怎么动不动就要断电了，大学的坑啊，先把结果附上，闲了在补充，

import requests
from bs4 import BeautifulSoup

# 网页的请求头
header = {
  &#39;user-agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36&#39;
}

def get_page(url):
  response = requests.get(url, headers=header)

  # 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
  soup_idex = BeautifulSoup(response.text, &#39;html.parser&#39;)
  result_li = soup_idex.find_all(&#39;li&#39;, {&#39;class&#39;: &#39;list-item&#39;})

  # 进行循环遍历其中的房源详细列表
  for i in result_li:
    # 由于BeautifulSoup传入的必须为字符串，所以进行转换
    page_url = str(i)
    soup = BeautifulSoup(page_url, &#39;html.parser&#39;)
    # 由于通过class解析的为一个列表，所以只需要第一个参数
    result_href = soup.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;houseListTitle&#39;})[0]
    # 详细页面的函数调用
    get_page_detail(result_href.attrs[&#39;href&#39;])


  # 进行下一页的爬取
  result_next_page = soup_idex.find_all(&#39;a&#39;, {&#39;class&#39;: &#39;aNxt&#39;})
  if len(result_next_page) != 0:
    # 函数进行递归
    get_page(result_next_page[0].attrs[&#39;href&#39;])
  else:
    print(&#39;没有下一页了&#39;)

# 进行字符串中空格，换行，tab键的替换及删除字符串两边的空格删除
def my_strip(s):
  return str(s).replace(" ", "").replace("\n", "").replace("\t", "").strip()
# 由于频繁进行BeautifulSoup的使用，封装一下，很鸡肋
def my_Beautifulsoup(response):
  return BeautifulSoup(str(response), &#39;html.parser&#39;)



# 详细页面的爬取
def get_page_detail(url):
  response = requests.get(url, headers=header)
  if response.status_code == 200:
    soup = BeautifulSoup(response.text, &#39;html.parser&#39;)
    # 标题什么的一大堆，哈哈
    result_title = soup.find_all(&#39;h3&#39;, {&#39;class&#39;: &#39;long-title&#39;})[0]
    result_price = soup.find_all(&#39;span&#39;, {&#39;class&#39;: &#39;light info-tag&#39;})[0]
    result_house_1 = soup.find_all(&#39;p&#39;, {&#39;class&#39;: &#39;first-col detail-col&#39;})
    result_house_2 = soup.find_all(&#39;p&#39;, {&#39;class&#39;: &#39;second-col detail-col&#39;})
    result_house_3 = soup.find_all(&#39;p&#39;, {&#39;class&#39;: &#39;third-col detail-col&#39;})
    soup_1 = my_Beautifulsoup(result_house_1)
    soup_2 = my_Beautifulsoup(result_house_2)
    soup_3 = my_Beautifulsoup(result_house_3)
    result_house_tar_1 = soup_1.find_all(&#39;dd&#39;)
    result_house_tar_2 = soup_2.find_all(&#39;dd&#39;)
    result_house_tar_3 = soup_3.find_all(&#39;dd&#39;)
    &#39;&#39;&#39;
    文博公寓，省实验中学，首付只需70万，大三房，诚心卖，价可谈 270万
    宇泰文博公寓 金水－花园路－文博东路4号 2010年 普通住宅
    3室2厅2卫 140平方米 南北 中层(共32层)
    精装修 19285元/m² 81.00万
    &#39;&#39;&#39;
    print(my_strip(result_title.text), my_strip(result_price.text))
    print(my_strip(result_house_tar_1[0].text),
       my_strip(my_Beautifulsoup(result_house_tar_1[1]).find_all(&#39;p&#39;)[0].text),
       my_strip(result_house_tar_1[2].text), my_strip(result_house_tar_1[3].text))
    print(my_strip(result_house_tar_2[0].text), my_strip(result_house_tar_2[1].text),
       my_strip(result_house_tar_2[2].text), my_strip(result_house_tar_2[3].text))
    print(my_strip(result_house_tar_3[0].text), my_strip(result_house_tar_3[1].text),
       my_strip(result_house_tar_3[2].text))

if __name__ == &#39;__main__&#39;:
  # url链接
  url = &#39;https://zhengzhou.anjuke.com/sale/&#39;
  # 页面爬取函数调用
  get_page(url)

由于自己边写博客，边写的代码，所以get_page函数中进行了一些改变，就是下一页的递归调用需要放在函数后面，以及进行封装了两个函数没有介绍，

而且数据存储到mysql也没有写，所以后期会继续跟进的，thank you!!!

相关推荐：

python爬取文章实例教程

有关python爬取的文章推荐10篇

分享一种Python爬取网易云音乐热门评论的方法

Atas ialah kandungan terperinci python爬取安居客二手房网站数据方法分享. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Bagaimana anda memotong senarai python?May 02, 2025 am 12:14 AM

Slicingapythonlistisdoneusingthesyntaxlist [Mula: berhenti: langkah] .here'showitworks: 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelementToexclude.3)

Apakah beberapa operasi biasa yang boleh dilakukan pada array numpy?May 02, 2025 am 12:09 AM

NumpyallowsforvariousoperationsonArrays: 1) BasicarithmeticLikeaddition, penolakan, pendaraban, danDivision; 2) Pengerjaan AdvancedSuchasmatrixmultiplication; 3) Element-WiseOperationswithoutExplicitLoops;

Bagaimana tatasusunan digunakan dalam analisis data dengan python?May 02, 2025 am 12:09 AM

Arraysinpython, terutamanya yang ada, adalah, penawaran yang ditawarkan.1) numpyarraysenableFandlingoflargedataSetsandClexPleperationsLikemovingAverages.2)

Bagaimanakah jejak memori senarai dibandingkan dengan jejak memori array di Python?May 02, 2025 am 12:08 AM

ListsSandnumpyAraySInpythonHavedifferMememoryFootPrints: listsaremoreflexibleButlessMememory-cekap, pemanmak

Bagaimana anda mengendalikan konfigurasi khusus persekitaran semasa menggunakan skrip python yang boleh dilaksanakan?May 02, 2025 am 12:07 AM

ToensurePythonscriptsbehaveCorrectlyCrossdevelopment, pementasan, dan produksi, usetheseStregies: 1) Environmentvariablesforsimplesettings, 2) ConfigurationFilesfilePlexSetups, dan3) Dynamicloadingforadaptability.EachMethodeFerPiReFiteReFiteShitsandReFitSandRiteFitSandRiteFitSandRiteFiteSandRiteReFitSandRiteReFitSandRiteFiteShiteSandReFiteShitsandReShitsAnfitsEts,

Bagaimana anda memotong array python?May 01, 2025 am 12:18 AM

Sintaks asas untuk pengirim senarai python adalah senarai [Mula: Berhenti: Langkah]. 1. Start adalah indeks elemen pertama yang disertakan, 2.Stop adalah indeks elemen pertama yang dikecualikan, dan 3. Step menentukan saiz langkah antara elemen. Hirisan tidak hanya digunakan untuk mengekstrak data, tetapi juga untuk mengubah suai dan membalikkan senarai.

Di bawah keadaan apa yang mungkin senarai lebih baik daripada tatasusunan?May 01, 2025 am 12:06 AM

ListsOutPerFormAraySin: 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData, dan3) MemoryeficiencyForSparsedata, ButmayHaveslightPerformancecostSincertaor.

Bagaimana anda boleh menukar array python ke senarai python?May 01, 2025 am 12:05 AM

ToConvertapythonarraytoalist, usethelist () constructororageneratorexpression.1) importTheArrayModuleAndCreateeanArray.2) uselist (arr) atau [xforxinarr] toConvertittoalist, urusanPengerasiPormanceAndMemoryeficiencyForlargedatasets.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7888

1649

1410

1301

1247