花一个星期看Python,作为练手项目,写了个爬取某租房网站的租房信息的爬虫。目标是爬取该网站下深圳所有的租房信息,然而才爬到2000多条爬虫就趴下了。错误类型已保存日志,待开题答辩完了再做研究。
爬虫爬取的策略是由价格从低到高爬起,然后再爬取其余的。虽然爬虫挂了,当时已经爬取完了5000元以内的信息,作为简单参考,也足够了。
分析思路:
- 价格分布
- 位置分布
- 配套设施
- 户型
首先看看价格:
其中,一千以内的只有5条数据,最低是850元/月。2000元/月的也仅占8%,这房价,真是伤不起啊。按照工资1/5这个比例作为房租不会对生活品质有较大影响的说法,在深圳月薪要8K以上才能过的比较从容,WTF?
其次,看看2000以下的分布情况:
可以看出,龙岗区的价格比其他的区偏低。如果上班地在龙岗,压力也许会稍稍小一点点。南山难,福田贵,罗湖没地睡啊。
出租类型比例:
整租的比例很小。注明整租的最低1700元/月,嗯,单着的也算是贵族?
在所有样本中,床、宽带、热水器、空调都注明有的 仅占8%,生活不易啊。当然,床和宽带必须有,空调?夏天忍忍也就过了。热水器嘛,冬天,是可忍孰不可忍?至于其他,呵呵。
而从统计平均数来看(因为五室以上样本不足偏差太大舍弃),合租的成本比单租的要低很多,平均在1200左右,所以,如果资金不够和一两个人合租是很好的选择。
目前仅采集了一个网站的样本,缺少横向对比。就是这样。