JAVA网络爬虫(二):页面分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hujingshuang/article/details/78920566

通过 JAVA网络爬虫(一):初探 我们知道了大致流程和基本配置,接下来就开始着手了。

查看链家网

  • 首先用Chrome打开链家网,自动会定位到你所在的城市,旁边有个二手房选项。
    链家成都首页

  • 二手房选项的位置按F12键或者点击右键->检查,在查看器中选择Elements,可以清楚的看到二手房的页面URL,这个URL是我们需要从HTML中提取的。
    二手房URL

  • 发现,二手房页面的URL是:https://cd.lianjia.com/ershoufang/,选择Network,刷新一下网页,在这个查看器可以看到很多请求响应信息。
    链家成都二手房首页

  • 在查看器中选择Elements,并将页面拉倒底部,在页面选择页面的地方按F12键或者点击右键->查看,这样我们可以知道整个城市的二手房的总页面数,例子中的页面数为100。这个页面总数是需要我们从HTML中解析并提取。
    查看底部页面选择

    在这里,你可能已经注意到了,第二页的URL是:https://cd.lianjia.com/ershoufang/pg2/,以此类推,只要我们获取到总页面数,就可以得知所有页面的URL。当然,第一个页面的URL就是:https://cd.lianjia.com/ershoufang/pg1/

  • 任意选择一个房源,然后通过查看器可以查看它的URL。每个页面的所有房源的URL都需要我们从该页面的HTML中去获取。
    房源URL

  • 当获取到一个房源的URL,我们便可以进入到该房源页面,获取到更为详细的二手房信息。现在我们任意选择一个房源,进入到该二手房页面中,用红框框出的信息就是我们要获取的主要信息。
    房源页面信息1
    房源页面信息2

    当然,如何获取这些详细信息,将在后面博客中逐一分析。

需要获取的信息

  • 某城市二手房的URL
  • 该城市二手房总页面数Total_Page
  • 每个页面所展房源的URL
  • 每个房源的详细信息

具体流程

经过上面的分析,我们可以总结一下整个从链家首页,到具体房源信息页面的过程。

Created with Raphaël 2.1.0 通过城市链家网的URL,获取其HTML,并由HTML提取二手房URL 通过二手房URL,获取其HTML,并由HTML获取二手房的总页面数Total_Page 生成页面page_i的URL,获取其HTML,并由HTML获取该页面上所有房源的URL 通过房源的URL,获取其HTML,并解析HTML获取房源相关的详细信息 将整理后的结构化信息,存入到MySQL page_i > Total_Page? 爬下来了该城市所有二手房信息,结束 yes no

猜你喜欢

转载自blog.csdn.net/hujingshuang/article/details/78920566