目的
实时获取具体学校的学院的调剂信息。
兼职原文:
计算机专业做过网络爬虫的联系我,现在有兼职3-5名,需要统计网站的xpath,有时间的同学可以联系微信删除 ,名额有限,快联系我。
提供:需要搜集的学校,主要是985和211学校。
自己需要统计的数据:
当前的url,时间,标题,网页链接
介绍一个chrome插件,Xpath helper,用于检查自己找的xpath路径是否正确。
步骤:
机构设置
搜索学院或者研究所
研究生研招网
搜索最新招研究生的具体学院
搜索招生信息
搜索具体调剂信息,只获取第一页信息即可。
一般在招生信息里面,或者学院通知里面
有搜索框的话,可以直接搜索研究生调剂。
特别注意
- 有些招生信息,不一定在文字上,可能在图片上
eg::http://lac.sysu.edu.cn/index.htm
- 区分 href 和text
通过属性,获取不同的内容
href:获取链接属性
text:获取文本属性
-
当span有两个时,可以通过span[1] , span[2]获取对应内容。span[1]和span[2]为同代树。
-
xpath拼接
concat()
concat(//div[@class=“common-list-container”]/ul/li/div[1]/div/span[2],".",//div[@class=“common-list-container”]/ul/li/div[1]/div/span[1])
将时间拼凑在一起,但是只能获取第一个时间段。 -
纯表格不获取,只需要div,才能获取(对方规定)。
xpath 理解
eg:
//div[@class=“list-3 list-3-1 inside-b outside-b”]/ul/li/a
选取所有div 元素,且这些元素拥有值为list-3 list-3-1 inside-b outside-b的 class属性,且选取所有a元素,一般为网页链接。
//:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
@:选取属性。只能选取特殊属性,区别其他。比如class,id等。
选取所有div 元素,且这些元素拥有值为list-3 list-3-1 inside-b outside-b的 class属性。