第一个爬虫项目的完善

原文见https://blog.csdn.net/yvonne_lu7/article/details/81097787

在昨天做完这个小项目后，今天又对它进行了完善

首先，之前的代码爬下来的数据没办法存在本地，并且最多只能爬3页，因此，对之前的代码进行了完善与修改，达到了可以存在本地文件并且可以爬完所有的功能。

先看代码：

from urllib.request import urlopen
from bs4 import BeautifulSoup


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist


def getLinks(url):
    phtml = urlopen(url)
    bsarticle = BeautifulSoup(phtml, 'html.parser')
    title = '标题：'+str(bsarticle.find(id="post-read").find("h3").get_text())+'\n'
    f.writelines(title)
    name = bsarticle.findAll('p', {'class': 'nickname text-line-limit'})
    for n in name:
        if n.text == '心理咨询师':
            postcard = n.parent.parent
            bsn = BeautifulSoup(str(postcard), 'html.parser')
            answer = bsn.find('div', {'class': 'body file-read image-click-view'}).p
            reply = '心理咨询师回复:'+str(answer.get_text())+'\n'
            f.writelines(reply)
    f.writelines('==================================\n\n')


filename = '心理.txt'
f = open(filename, 'w', encoding='utf-8')
for page in getPage():
    html = urlopen(page)
    bspage = BeautifulSoup(html, 'html.parser')
    articles = bspage.findAll('div', {'class': 'list-item-topic list-item'})
    b_url = 'https://bbs.pku.edu.cn/v2/'
    for art in articles:
        getLinks(b_url+art.a.attrs['href'])

最主要的区别在于新增加了一个getPage()函数，之前的项目中，对于每一页，我是通过爬虫获取每页的url做到的，但是这样对于爬虫负担比较大，而通过观察发现，每一页的url变化都不大，基本都是

'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='

再加上页数，因此我们可以直接用for循环遍历得到每一页的url，而不用单独爬取每一页的Url


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist

此时，getPage()这个函数返回的是一个列表，因此，在需要的时候直接遍历整个列表就好了

第一个爬虫项目的完善

猜你喜欢