JAVA网络爬虫（二）：页面分析

通过 JAVA网络爬虫（一）：初探我们知道了大致流程和基本配置，接下来就开始着手了。

查看链家网

首先用Chrome打开链家网，自动会定位到你所在的城市，旁边有个二手房选项。
在二手房选项的位置按F12键或者点击右键->检查，在查看器中选择Elements，可以清楚的看到二手房的页面URL，这个URL是我们需要从HTML中提取的。
发现，二手房页面的URL是：https://cd.lianjia.com/ershoufang/，选择Network，刷新一下网页，在这个查看器可以看到很多请求响应信息。
在查看器中选择Elements，并将页面拉倒底部，在页面选择页面的地方按F12键或者点击右键->查看，这样我们可以知道整个城市的二手房的总页面数，例子中的页面数为100。这个页面总数是需要我们从HTML中解析并提取。

在这里，你可能已经注意到了，第二页的URL是：https://cd.lianjia.com/ershoufang/pg2/，以此类推，只要我们获取到总页面数，就可以得知所有页面的URL。当然，第一个页面的URL就是：https://cd.lianjia.com/ershoufang/pg1/
任意选择一个房源，然后通过查看器可以查看它的URL。每个页面的所有房源的URL都需要我们从该页面的HTML中去获取。
当获取到一个房源的URL，我们便可以进入到该房源页面，获取到更为详细的二手房信息。现在我们任意选择一个房源，进入到该二手房页面中，用红框框出的信息就是我们要获取的主要信息。

当然，如何获取这些详细信息，将在后面博客中逐一分析。

需要获取的信息

某城市二手房的URL
该城市二手房总页面数Total_Page
每个页面所展房源的URL
每个房源的详细信息

具体流程

经过上面的分析，我们可以总结一下整个从链家首页，到具体房源信息页面的过程。

JAVA网络爬虫（二）：页面分析

查看链家网

需要获取的信息

具体流程

猜你喜欢