python爬虫-1-hello

1.什么是爬虫，爬虫是一个用来抓取网站数据的程序
2.爬虫有什么用，爬虫是大数据分析的基础
3.爬虫一般用什么语言写，Python,因为Python有着丰富的库支持爬虫程序
4.为什么爬虫叫爬虫，可能是因为python的中文意思就是蟒蛇的原因吧(笑)

爬虫过程
获取网页->解析网页->储存数据

获取网页：request(请求)、urllib(url)、selenium(模拟浏览器)、多线程，登录，突破IP封禁，服务器抓取
解析网页：re(正则表达式)、BeautifulSoup、lxml、解决中文乱码
储存数据：txt、csv、MySQL、MongoDB
以上所用技术看看就行，不用费劲上网查他们的具体功能用法，后面会介绍到的
最重要的是爬虫程序的三个过程

准备
会使用Python
安装好request,selenium,bs4(包含BeautifulSoup),lxml
不会安装点这里

开始

import requests

link = "https://www.cnblogs.com/jawide/"            #访问网址
header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}      #假装自己是一个用户

response = requests.get(link,headers = header)      #向网站发送请求，并得到回复

with open('1.html','w') as file:        #保存到本地
    file.write(response.text)

requests　　是一个用来向网站发送请求的库

link　　　　即要爬取的网站链接

header　　用户头？

response　　从requests那里得到的回应对象

response.txt　　即为整个网页的内容

requests.get()　　　向网站发送请求，获取网页

猜你喜欢