Rumah >pembangunan bahagian belakang >tutorial php >PHP程序员使用爬虫技术揭露房租上涨背后的真实数据
在近期内,相信大家在微博上或者朋友圈内都有被房租暴涨以及我爱我家副总裁在朋友圈发布辞职信宣布辞职、网曝链家自如哄抬房价等等的相关事件刷屏过。对于房租上涨之后,受影响最大的当属年轻人了。大部分年轻人或是刚毕业无存款,或是工作几年却因高房价而继续为租房奔波,如今连租房都成了一大难事。那么身为PHP程序员,下面就此事件为大家介绍如何用PHP写爬虫来获取真实的租房数据。
这里针对北京租房市场来说,如果你想租房主要有这么三种方式:1、找房屋中介公司目前市场占有率最高的公司,名叫链家;2、找长租公寓目前市场占有率最高的,名叫自如;3、上找房平台目前市场占有率最高的,第一是安居客。而今年4月有一家新上线的公司,异军突起极速窜到了前五位,名叫贝壳找房;这三种方式加起来几乎决定着你我租房的价格而更让人惊讶的是上述几家公司,除了安居客以外链家、自如、贝壳找房他们的实际控制人是同一个人这就是这几天频繁出现在新闻中的链家集团的老板左晖。
对于准备在北京打拼的人来说,房租暴涨是件相当气愤的事。有些网友就用程序员的方式扒了扒房租上涨背后的事情。那么什么是程序员的方式呢?
其中的程序思路就是:用php写一个爬虫用它爬取了一下链家的数据。首先去控制台看加载信息,找到相关数据api,按照请求头里面的所需参数,发送https请求,分析完成后使用xpath或者正则表达式工具去匹配你想要的内容,然后插入数据库中,即可完成抓取。最后PHP实现爬虫爬取到了链家网上所有待租的房子。
接着继续同样用爬虫的方式爬取自如、蛋壳、蘑菇公寓等长租公寓平台最后得出的数据词云图是这样的
根据数据总结,在北京租房行业的几个主要方向上左老板的产业要么占据了龙头地位要么正在飞速增长这也难怪前几天有一条重量级的新闻说原来的我爱我家副总裁胡景晖因为受到了某些压力辞职并炮轰自如、蛋壳等长租公寓以高出市场价20%-40%的价格争抢房源完全不计成本地进行扩张。
商人逐利是无可厚非的而追求更大的市场占有率也是正常的商业目标只是当某一个企业过于强大时会形成垄断或者寡头而一旦形成垄断它们就可以利用资源和资本优势进行囤积居奇、左右甚至操纵这个行业的走向而在北京的租房行业这样的垄断似乎正在形成。这里也主要是想告诉大家PHP爬虫能够从网络上获取网页、图片、脚本、文件数据等等的网络资源。
Atas ialah kandungan terperinci PHP程序员使用爬虫技术揭露房租上涨背后的真实数据. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!