爬虫抓取新浪微博数据

企业开发 2023-07-18 18:44:52 阅读次数: 0

工具：云采爬虫

目标：抓取某个博主的全部微博

分析网页结构：

我们抓取的思路是模拟浏览器自动访问页面抓取。

我们来看一下页面结构，首先每个微博列表，必须进行三四次的下拉加载，如果底部有个翻页的按钮，那么判断本页加载完成。

登录的问题

抓取需要登录账号，如何登录呢？

登录是不需要验证码的，如果你输入错了，才会叫你输入验证码，所以登录是没什么技术难度的。

我们可以创建一个【登录模块】，先用浏览器登录，往后所有的页面都基于这个浏览器共享的cookie去抓取。

流程图设计：

我们不需要微博的详情页。所以整个爬虫的流程是没有详情页的，数据都从列表里面提取。

爬取结果：

总共花费了5分钟的时间，抓取了10个页面，总计四百条微博。因为我的微博发的不是很频繁。

数据如下：

做个简单的词云：

猜你喜欢

转载自blog.csdn.net/milu2003516/article/details/106208880

爬虫抓取新浪微博数据

用爬虫抓取新浪微博粉丝

新浪微博爬虫-抓取用户发布的微博

新浪微博爬虫分享（一天可抓取 1300 万条数据）

最新python爬虫抓取新浪微博千万级数据，scrapy思路+架构+源码

新浪微博爬虫

新浪微博内容抓取

Java模拟新浪微博登陆抓取数据

Java网络爬虫抓取新浪微博个人微博记录

新浪微博python爬虫分享（一天可抓取 1300 万条数据）,超级无敌

新浪微博爬虫项目

新浪微博小爬虫

scrapy新浪微博爬虫

抓取新浪微博相册图片

通过selenium抓取新浪微博

python抓取新浪微博评论并分析

python爬虫知识点总结（二十五）Scrapy+Cookies抓取新浪微博

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

使用JSoup进行新浪微博抓取(不用新浪的API)

抓取微博数据,如何防护爬虫被墙

新浪微博爬虫模拟登陆

爬虫爬取新浪微博

新浪微博美女图片的爬虫

新浪微博爬虫v1.0

新浪微博爬虫阶段总结

爬虫:新浪微博爬虫的最简单办法

一小时爬千万数据的新浪微博爬虫

使用网页爬虫（高级搜索功能）搜集含关键词新浪微博数据

爬虫—新浪微博（登陆访问、cookie访问）

Python爬虫实列：新浪微博热门话题

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)