友情提示:一般的网站都会有反爬虫技术,因此 想要爬取这些网站信息 就必须学会浏览器的伪装
想要伪装成浏览器 则必须为爬虫添加浏览器报头信息 ,这些报头信息需要技术人员亲自从网站代码中复制
例如csdn报头信息如下:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36
下面给出一个爬虫小实例:爬虫把csdn信息存入data中并输出data数量
1 import urllib.request 2 import re 3 url="http://blog.csdn.net/" 4 5 #伪装成浏览器报头 去浏览器中读代码找到 Use-Agent的值 6 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36") 7 #创建oenener对象 8 opener=urllib.request.build_opener() 9 opener.addheader=[headers] 10 #把opener添加为全局 11 urllib.request.install_opener(opener) 12 13 data=urllib.request.urlopen(url).read().decode("utf-8","ignore") 14 print(len(data))