原文见https://blog.csdn.net/yvonne_lu7/article/details/81097787
在昨天做完这个小项目后,今天又对它进行了完善
首先,之前的代码爬下来的数据没办法存在本地,并且最多只能爬3页,因此,对之前的代码进行了完善与修改,达到了可以存在本地文件并且可以爬完所有的功能。
先看代码:
from urllib.request import urlopen
from bs4 import BeautifulSoup
def getPage():
pagelist = []
basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
for i in range(1, 255):
new_page = basic_page+str(i)
pagelist.append(new_page)
return pagelist
def getLinks(url):
phtml = urlopen(url)
bsarticle = BeautifulSoup(phtml, 'html.parser')
title = '标题:'+str(bsarticle.find(id="post-read").find("h3").get_text())+'\n'
f.writelines(title)
name = bsarticle.findAll('p', {'class': 'nickname text-line-limit'})
for n in name:
if n.text == '心理咨询师':
postcard = n.parent.parent
bsn = BeautifulSoup(str(postcard), 'html.parser')
answer = bsn.find('div', {'class': 'body file-read image-click-view'}).p
reply = '心理咨询师回复:'+str(answer.get_text())+'\n'
f.writelines(reply)
f.writelines('==================================\n\n')
filename = '心理.txt'
f = open(filename, 'w', encoding='utf-8')
for page in getPage():
html = urlopen(page)
bspage = BeautifulSoup(html, 'html.parser')
articles = bspage.findAll('div', {'class': 'list-item-topic list-item'})
b_url = 'https://bbs.pku.edu.cn/v2/'
for art in articles:
getLinks(b_url+art.a.attrs['href'])
最主要的区别在于新增加了一个getPage()函数,之前的项目中,对于每一页,我是通过爬虫获取每页的url做到的,但是这样对于爬虫负担比较大,而通过观察发现,每一页的url变化都不大,基本都是
'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
再加上页数,因此我们可以直接用for循环遍历得到每一页的url,而不用单独爬取每一页的Url
def getPage():
pagelist = []
basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
for i in range(1, 255):
new_page = basic_page+str(i)
pagelist.append(new_page)
return pagelist
此时,getPage()这个函数返回的是一个列表,因此,在需要的时候直接遍历整个列表就好了