python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容 - 代码天地

python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容

编程语言 2019-03-04 02:13:50 阅读次数: 0

beautifsoup----爬虫数据挖掘又一大利器

– 安装：
conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs的版本)
这里我用了conda安装：

– beautiful soup：
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.
官方文档：Beautifulsoup官方文档（里面讲的很详细）
–案例：

工具：urllib bs
思考：
1. 用urllib.request.Request请求网页，使用headers设置用户代理或者使用proxy代理服务器隐藏身份，因为直接请求，返回403。
2. 通过查看源代码发现，用户名在auth类下的a标签里，而用户回复内容在postbody类里
4. 炖一锅汤，使用css选择器 select方法下的get_text()方法找到我们想要的数据
5. for循环并按想要的格式输出数据
代码：

输出结果：

疑问：如何获取所有跟贴战友的name和content？

但是通过结果我们发现，最终结果只有四个战友的名字和其回复内容，但是我们发现登录丁香园账号后这个帖子有很多跟贴。
解决办法：
使用cookie，模拟用户登录
在这里插入图片描述
输出结果：

**特别提醒：**这里range函数里如果是len(name)，结果会多一行“没找到” 在这里插入图片描述
原因就是我们用cookie模拟登录，那么最后一个战友的name是自己。

总结：

bs是出了xml bs4等外的非常重要的一种数据提取库
他们的优缺点：

正则：很快，不好用，不许安装
beautifulsoup：慢，使用简单，安装简单
lxml：比较快，使用简单，安装一般

bs的四大对象：

Tag
NavigableString
BeautifulSoup
Comment

遍历文档树的方法

find_all和find
css选择器(select)

猜你喜欢

转载自blog.csdn.net/weixin_40734650/article/details/88088287

python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容

Beautifulsoup提取特定丁香园帖子回复

爬虫基础（四）综合爬取丁香园论坛的回复内容

趣味实战！Python爬虫爬取丁香园用户主页（第一节）

python爬取丁香园的疫情数据绘制Echarts地图

爬取丁香论坛指定回复

【Python3 爬虫】爬取博客园首页所有文章

Python + PyEcharts 爬取丁香医生自动绘制全国所有省份地图

python爬虫——爬取链节点区块链社区所有帖子标题和链接，整理成json文件并保存

golang多任务爬虫：爬取爆照吧每个帖子第一页所有的照片

python爬虫爬取百度贴吧帖子

python爬取百度文库所有内容

python爬虫练习--爬取所有微博

Python爬虫爬取CSDND首页的所有的文章

Python爬虫爬取LOL所有英雄皮肤

Python爬虫爬取网页上的所有图片

Python 爬取博客园特定博主的文章

python爬取看雪论坛的所有主题帖的回复消息

利用bs4爬取三国演义所有章节标题以及章节内容

python爬虫学习（十一）bs4解析爬取三国演义

Python爬虫：学习啦网站文章内容爬取

Python爬虫-爬取斗鱼网页selenium+bs

武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态

[python爬虫]爬取英雄联盟所有英雄数据并下载所有英雄皮肤

Python爬虫爬取新浪新闻内容

【python爬虫-爬微博】爬取王思聪所有微博数据

Python爬虫爬取博客园作业

BS4爬取小说内容

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

Python爬取Drupal论坛帖子列表

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)