1.探查定位数据源的网络地址
打开火车采集器主页面,新建分组,打钩采网址,采内容
新建任务
网址规则,在二手房小区中发现网址规则https://beijing.anjuke.com/community/p3/,p3为第三页
选择向导添加,批量网址
则网址采集为手动设置规则 ,https://beijing.anjuke.com/community/p[地址参数]/
通过典型内容页测试网页内容,选择需要爬取的标签
通过F12找标签
注意一个大坑,如果起始也网址就是内容页,那一定要点击设置
爬取内容选择前后截取就好,这个很简单
在内容设置页,注意勾选循环匹配
保存退出后执行