网络爬虫需要的知识

引用


第一步,入门就是用java自带的HttpURLConnection获取源码,然后用正则匹配就是一个简单的爬虫。
第二步,你会发现很多网站并不能爬到想要的数据,你需要鸟枪换大炮,使用Apache的Httpclient来进行爬,你下载的包里就有官方教程,你会慢慢了解cookie,或者是一些http请求头,ua等等。源码解析使用Jsoup,非常方便。
第三步,httpclient使用熟练后,一个非常适合初学者的框架webmagic,先会用,然后研究源码,看看真正的爬虫是怎样的。

你需要对http协议非常了解,推荐《图解http》

猜你喜欢

转载自dannyhz.iteye.com/blog/2365194