初级爬虫,为了学习一下常用的goquery。
待补吧。算是督促下进度。
1.解析操作的学习
2.如果遍历dom树如何避开陷阱
3.分离 贴子中楼层,楼中楼。贴子有唯一ID 已经体现在url中。 楼和楼中楼应该也有唯一ID。
4.回复中有图片的情况,下载or跳过。
5.作为解析器,如何融入项目
func GetUrlDocAndRetNxtUrl(){ file := "urltxt" fout,err := os.Create(file) defer fout.Close() if err!=nil{ fmt.Println(file,err) return } doc,err := goquery.NewDocument("https://tieba.baidu.com/p/5976430861") //创建了html的dom对象。 if err!=nil{ log.Fatal(err) } //通过find a标签中的下一页 。 //或者直接构造 oldurl?pn=pagenum 即可 。
return nxturl; }
还没有测试。。