python爬取百度旅游的城市点评文本数据

以青岛市为例,查看网址主要字段为 pn=0

n?rn=15&pn=0&style=hot#remark-contaier

最后一页,即183页  pn=2730

n?rn=15&pn=2730&style=hot#remark-contaier

立刻判断为等差数列,网址问题解决

网页内容爬取,可以选择Xpath方法,这个百度一下就知道了用法

编写代码实现,在点评文本爬取的时候,里面有很多链接,我们不想要这些链接怎么办呢,正则表达式呀

<div data-remarkid="f624eb35e52a4f8a9947e26d" 
class="ri-remarktxt"><a href="http://lvyou.baidu.com/qingdao" 
class="a-remark-innerlink" target="_blank">
青岛</a>几日,只是兜转那些我爱的老房子,花石楼,总督府,<a href="http://lvyou.baidu.com/changzhou" 
class="a-remark-innerlink" target="_blank">
常州</a>路上的<a href="http://lvyou.baidu.com/deguo" class="a-remark-innerlink" target="_blank">德国</a>监狱,
福山路上的沈从文故居,手禁不住去触摸着门栏信箱,
趴在屋檐回眸一笑就可以是最美的画面。你记得吗?
小青岛上长长的栈道,一个人在前面跑,
一个人在后面拍照,风把头发都吹起来,把过往的回忆也吹起来,
把烦恼还有喧嚣都吹起来,
然后就好像都不见了,只剩下我仰拍你的那张照片里,除了你,
只有蔚蓝蔚蓝的天。
还想起自己趴在水母宫的玻璃上看水母,觉得这低级动物像极了爱情,
不仅最美,而且最毒。</div>

直接剔除掉<a>标签就行了

测试一下最终结果,共爬取文本2735条

存入数据库中查看一下,效果不错

作者微信号w912917507.欢迎学习交流

猜你喜欢

转载自blog.csdn.net/qq_912917507/article/details/85090135