Python爬取妹子图片
今天我写的一个小爬虫是爬取妹子的图片,想必大家都喜欢,这个都懂。。。
利用python爬虫爬取图片,首先要进行安装python,
在(https://www.python.org/)进行下载python安装
安装python之后,在进行安装第三方库,requests,bs4,lxml这三个库。。。
在cmd中
进行安装pip install requests,输入后回车,另外两个一样,等安装好后就可以了。。。
python爬取图片现在开始:
利用python抓取网络图片的步骤:
1.根据给定的网址获取网页源代码
2.利用正则表达式把源代码中的图片地址过滤出来
3.根据过滤出来的图片地址下载网络图片
今天我们用(http://www.mzitu.com/zipai/comment-page-1/)作为事例,教大家爬取美女图片:
1:打开浏览器,输入网址(http://www.mzitu.com/zipai/comment-page-1/),进入网页
2:然后按F12,会出现如下
这是网页源代码。
3:看到网页源代码后,首先要获取网页源代码
res = requests.get('http://www.mzitu.com/zipai/comment-page-1) # 响应
print(res.text) # 打印网页源代码
4:获取源代码后,提取url,获取每页图片url
href = re.findall(r’<img src="(.?)" alt=".?"’, res.text) # 筛选
print(href) #打印出一页的所有图片url
5:获取之后就可以下载,保存图片了 ,,想想就激动。直接写到一个方法里就可以了,
def imgurl(url):
for i in url:
# meiziid = url[-14:-11] # 切片将src的倒数的字符串做名字
# print('开始下载妹子:', format(meiziid)) # 输出窗口提示下载
root = 'C://Users//Administrator//Desktop//python爬虫//tupian//meizitu//
tupian_3//' # 下载的图片存放位置
path = root + i.split('/')[-1]
# 添加headers模拟浏览器工作 反反爬
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
'Referer': 'http://www.mzitu.com'
}
response = requests.get(i, headers=headers)
f = open(path, 'wb') # 放在目录下
f.write(response.content)
f.close()
print('===> %s 完成 ' % (i))
6:这就完成了,把刚才获取网页和提取图片url的都放到一块
def imgpage(page=''):
res = requests.get('http://www.mzitu.com/zipai/comment-page-' + page)
href = re.findall(r'<img src="(.*?)" alt=".*?"', res.text) # 筛选
imgurl(href)
7:然后再进行循环下载
for i in range(1,366):
imgpage(str(i))
```
**8:这就大功告成了,我把完整的代码放上,**
```javascript
#coding=utf-8
import requests
from bs4 import BeautifulSoup
import re
from lxml import etree
def imgurl(url):
for i in url:
# meiziid = url[-14:-11] # 切片将src的倒数的字符串做名字
# print('开始下载妹子:', format(meiziid)) # 输出窗口提示下载
root = 'C://Users//Administrator//Desktop//python爬虫//tupian//meizitu//tupian_3//'
path = root + i.split('/')[-1]
# 添加headers模拟浏览器工作 反反爬
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
'Referer': 'http://www.mzitu.com'
}
response = requests.get(i, headers=headers)
f = open(path, 'wb') # 放在目录下
f.write(response.content)
f.close()
print('===> %s 完成 ' % (i))
def imgpage(page=''):
res = requests.get('http://www.mzitu.com/zipai/comment-page-' + page)
href = re.findall(r'<img src="(.*?)" alt=".*?"', res.text) # 筛选
imgurl(href)
for i in range(1,366):
imgpage(str(i))
9:让我们运行看看如何
运行的完美,爬虫有实效性,如果网站进行更改的话,就不能用了,就要进行稍微修改才能使用,希望能给你提供帮助。