用Jsoup Splider 抓取豆瓣书籍信息

其他 2020-06-19 01:29:10 阅读次数: 0

打个小guang告，搜索拼duoduo店铺： Boush杂货铺
物美价廉，你值得拥有

抓取豆瓣上的书籍信息

之前有一个爱立信外包的猎头联系我，先是帮我推简历，然后让编程实现爬虫，抓取豆瓣上互联网、编程、算法的书籍信息，自己太菜，电面就跪了。。。。。。但还是把自己的实现分享出来

题目如下：将豆瓣（book.douban.com）里的关于“互联网，编程，算法”方面的书籍数据抓下来，并且显示评分最高的前100本数据（要求评价数目不低于1000）

主要是使用jsoup来解析HTML，具体怎么用可以谷歌，抓取数据的时候当抓取的数据量太大的时候，豆瓣的服务器会检测到，并把ip封掉，但是用浏览器缺仍然可以访问，所以猜测是服务器对HTTP请求中的cookies进行了检测，在代码中加上cookies，ip就不会再被封了，另外至于会不会是请求时间间隔太短被封ip，没有具体验证，保险起见每个请求结束之后休眠1s。

附上源码github地址

https://github.com/xiaoleo911/DoubanSplider

爬虫抓取的数据结果如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EwpL6jPl-1592311397405)(https://img-blog.csdn.net/20170106105039292?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ29kbG92ZWxlbzk1Mjc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)]

这些书评分都很高，都是很值得一读的。

猜你喜欢

转载自blog.csdn.net/godloveleo9527/article/details/54135423

用Jsoup Splider 抓取豆瓣书籍信息

使用Jsoup包抓取豆瓣Top250电影信息

用Jsoup获取豆瓣TOP250书单

用Jsoup抓取长颈鹿但丁图片

用java编写基于selenium的方式抓取豆瓣读书书籍内容

jsoup抓取起点小说

Jsoup抓取图片

一个简单的Jsoup抓取页面信息的例子

使用Jsoup抓取京东图书分类页面图书信息

Jsoup初接触-抓取彩票网站历史开奖信息

java jsoup 网络爬虫学习例子（三）抓取豆瓣电影海报图片下载到本地

java jsoup 网络爬虫学习例子（二）只抓取豆瓣电影5星（力荐）电影名称

java jsoup 网络爬虫学习例子（一）抓取豆瓣电影名称+推荐星级

利用jsoup抓取新浪天气

jsoup抓取网页报错UnsupportedMimeTypeException

【jsoup爬虫1】用jsoup来实现简单的java爬虫

使用BeautifulSoup方法抓取豆瓣电影信息

Jsoup爬取简单信息

用批处理抓取Windows版本信息

jsoup抓取国际化的网站，显示英文，没设置头信息

JsoupSample,使用 Jsoup 抓网页，项目抓取了小说，图片，影视几个网站的信息

网页信息抓取进阶支持Js生成数据 Jsoup的不足之处

jsoup网页内容抓取分析(2)

使用Jsoup登录网站抓取网页内容

Jsoup网页内容抓取分析(1)

使用java jsoup抓取页面中的数据

使用Jsoup 抓取页面的数据

使用HttpClient和Jsoup定向抓取数据

httpClient及jsoup抓取解析网页数据

Android 使用jsoup 进行数据抓取

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)