1. requests库的安装
通过 cmd 安装 requests库 :
pip install requests
2. requests库的方法
函数 | 作用 |
---|---|
request() | 构造一个请求,支撑一下个方法的基础方法 |
get() | 获取HTML网页的主要方法,对应于HTTP的GET |
head() | 获取HTML网页信息头部的方法,对应于HTTP的HEAD |
post() | 向HTML网页提交POST请求方法,对应HTTP的POST |
put() | 向HTML网页提交向URL位置存储一个资源,覆盖原URL位置的资源 ,对应HTTP的PUT |
patch() | 向HTML网页提交局部修改请求,对应于HTTP的PATCH |
delete() | 请求删除URL位置存储的资源 |
requests中除了“request()” 方法,其余六个方法都是request方法的调用
3. requests库抓取网站框架
这里调用了bs4库对源代码进行了美化处理写进txt文档
import requests as req
from bs4 import BeautifulSoup
def get_html_text(url):
try:
kv = {'User-Agent': 'Mozilla/5.0'} # 通过该字典修改标识
r = req.get(url, headers=kv, timeout=30) # 修改为浏览器标识后,避免被识别为爬虫
r.raise_for_status() # 如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == '__main__':
url = "http://www.baidu.com" # 可以随意修改网址
text = get_html_text(url)
soup = BeautifulSoup(text, "html.parser")
text = soup.prettify()
with open('baidu.txt', 'w', encoding='utf-8') as file: # 把源码写进这个txt文档中
file.write(text)
file.close()