1.什么是爬虫,爬虫是一个用来抓取网站数据的程序
2.爬虫有什么用,爬虫是大数据分析的基础
3.爬虫一般用什么语言写,Python,因为Python有着丰富的库支持爬虫程序
4.为什么爬虫叫爬虫,可能是因为python的中文意思就是蟒蛇的原因吧(笑)
2.爬虫有什么用,爬虫是大数据分析的基础
3.爬虫一般用什么语言写,Python,因为Python有着丰富的库支持爬虫程序
4.为什么爬虫叫爬虫,可能是因为python的中文意思就是蟒蛇的原因吧(笑)
爬虫过程
获取网页->解析网页->储存数据
获取网页->解析网页->储存数据
获取网页:request(请求)、urllib(url)、selenium(模拟浏览器)、多线程,登录,突破IP封禁,服务器抓取
解析网页:re(正则表达式)、BeautifulSoup、lxml、解决中文乱码
储存数据:txt、csv、MySQL、MongoDB
以上所用技术看看就行,不用费劲上网查他们的具体功能用法,后面会介绍到的
最重要的是爬虫程序的三个过程
解析网页:re(正则表达式)、BeautifulSoup、lxml、解决中文乱码
储存数据:txt、csv、MySQL、MongoDB
以上所用技术看看就行,不用费劲上网查他们的具体功能用法,后面会介绍到的
最重要的是爬虫程序的三个过程
准备
会使用Python
安装好request,selenium,bs4(包含BeautifulSoup),lxml
不会安装点这里
会使用Python
安装好request,selenium,bs4(包含BeautifulSoup),lxml
不会安装点这里
开始
import requests link = "https://www.cnblogs.com/jawide/" #访问网址 header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} #假装自己是一个用户 response = requests.get(link,headers = header) #向网站发送请求,并得到回复 with open('1.html','w') as file: #保存到本地 file.write(response.text)
requests 是一个用来向网站发送请求的库
link 即要爬取的网站链接
header 用户头?
response 从requests那里得到的回应对象
response.txt 即为整个网页的内容
requests.get() 向网站发送请求,获取网页