以青岛市为例，查看网址主要字段为 pn=0

n?rn=15&pn=0&style=hot#remark-contaier

最后一页，即183页 pn=2730

n?rn=15&pn=2730&style=hot#remark-contaier

立刻判断为等差数列，网址问题解决

网页内容爬取，可以选择Xpath方法，这个百度一下就知道了用法

编写代码实现，在点评文本爬取的时候，里面有很多链接，我们不想要这些链接怎么办呢，正则表达式呀

<div data-remarkid="f624eb35e52a4f8a9947e26d" 
class="ri-remarktxt"><a href="http://lvyou.baidu.com/qingdao" 
class="a-remark-innerlink" target="_blank">
青岛</a>几日，只是兜转那些我爱的老房子，花石楼，总督府，<a href="http://lvyou.baidu.com/changzhou" 
class="a-remark-innerlink" target="_blank">
常州</a>路上的<a href="http://lvyou.baidu.com/deguo" class="a-remark-innerlink" target="_blank">德国</a>监狱，
福山路上的沈从文故居，手禁不住去触摸着门栏信箱，
趴在屋檐回眸一笑就可以是最美的画面。你记得吗？
小青岛上长长的栈道，一个人在前面跑，
一个人在后面拍照，风把头发都吹起来，把过往的回忆也吹起来，
把烦恼还有喧嚣都吹起来，
然后就好像都不见了，只剩下我仰拍你的那张照片里，除了你，
只有蔚蓝蔚蓝的天。
还想起自己趴在水母宫的玻璃上看水母，觉得这低级动物像极了爱情，
不仅最美，而且最毒。</div>

直接剔除掉<a>标签就行了

测试一下最终结果，共爬取文本2735条

存入数据库中查看一下，效果不错

python爬取百度旅游的城市点评文本数据

作者微信号w912917507.欢迎学习交流

猜你喜欢