python爬虫-1-hello

1.什么是爬虫,爬虫是一个用来抓取网站数据的程序
2.爬虫有什么用,爬虫是大数据分析的基础
3.爬虫一般用什么语言写,Python,因为Python有着丰富的库支持爬虫程序
4.为什么爬虫叫爬虫,可能是因为python的中文意思就是蟒蛇的原因吧(笑)
 
 
爬虫过程
获取网页->解析网页->储存数据
 
 
获取网页:request(请求)、urllib(url)、selenium(模拟浏览器)、多线程,登录,突破IP封禁,服务器抓取
解析网页:re(正则表达式)、BeautifulSoup、lxml、解决中文乱码
储存数据:txt、csv、MySQL、MongoDB
以上所用技术看看就行,不用费劲上网查他们的具体功能用法,后面会介绍到的
最重要的是爬虫程序的三个过程
 
准备
会使用Python
安装好request,selenium,bs4(包含BeautifulSoup),lxml
不会安装点这里
 
开始
import requests

link = "https://www.cnblogs.com/jawide/"            #访问网址
header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}      #假装自己是一个用户

response = requests.get(link,headers = header)      #向网站发送请求,并得到回复

with open('1.html','w') as file:        #保存到本地
    file.write(response.text)    

requests  是一个用来向网站发送请求的库

link    即要爬取的网站链接

header  用户头?

response  从requests那里得到的回应对象

response.txt  即为整个网页的内容

requests.get()   向网站发送请求,获取网页

猜你喜欢

转载自www.cnblogs.com/jawide/p/11483421.html