爬虫的基本思路如下:
根据URl获取相应页面的html代码
利用正则匹配或者Jsoup等库解析html代码,提取需要的内容
将获取的内容持久化到数据库中
处理好中文字符的编码问题,可以采用多线程提高效率
参考:
Java爬虫入门笔记
网页爬虫技术浅析