首先导入模块
import requests
其次设置请求头(以知乎某用户为例)
request_headers = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch, br',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Cookie':'',
'Host':'www.zhihu.com',
'Referer':'https://www.zhihu.com/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
然后就可以发送请求了
1.requests.get(url,headers = request_headers)
2.html = requests.get(url,headers = request_headers)
3. print(html.content)
关于.content和.text
.content 返回的是可以自由加工的(以你想要的编码格式来进行编码)的字节串,是只高于二进制数据的一种数据存储单位。
.text() 返回的基于对内容类型的猜测而加工过的数据,这种数据形式比较直观,但有时也会因为解码方式不对而产生乱码
在网上看到的回答中推荐到的做法是
.content.decode('utf-8')