版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84332233
# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬虫爬取CSDND首页的所有的文章""" html="https://blog.csdn.net/nav/engineering" #模拟浏览器 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/63.0")#这里用的是Fix浏览器进行爬取的一个报头如果是采用其他的这个报头就要进行更换 opener=urllib.request.build_opener() opener.addheader=[headers] urllib.request.install_opener(opener) data = urllib.request.urlopen(html).read() data = data.decode("utf-8", "ignore") print(data) pattern='<h3 class="company_name"><a href="(.*?)"' mydata=re.compile(pattern).findall(data) print(mydata) for i in range(0,len(mydata)): file="E:/数据挖掘练习/网页/"+str(i)+".html" urllib.request.urlretrieve(mydata[i],filename=file) print("第%d次爬取成功"%i) print("CSDN爬虫结束") if __name__ == '__main__': function()