Python爬取妹子图片

Python爬取妹子图片

今天我写的一个小爬虫是爬取妹子的图片,想必大家都喜欢,这个都懂。。。

利用python爬虫爬取图片,首先要进行安装python,

在(https://www.python.org/)进行下载python安装

安装python之后,在进行安装第三方库,requests,bs4,lxml这三个库。。。

在cmd中
在这里插入图片描述
进行安装pip install requests,输入后回车,另外两个一样,等安装好后就可以了。。。

python爬取图片现在开始:

利用python抓取网络图片的步骤:

1.根据给定的网址获取网页源代码

2.利用正则表达式把源代码中的图片地址过滤出来

3.根据过滤出来的图片地址下载网络图片

今天我们用(http://www.mzitu.com/zipai/comment-page-1/)作为事例,教大家爬取美女图片:

1:打开浏览器,输入网址(http://www.mzitu.com/zipai/comment-page-1/),进入网页
2:然后按F12,会出现如下

在这里插入图片描述
这是网页源代码。

3:看到网页源代码后,首先要获取网页源代码

res = requests.get('http://www.mzitu.com/zipai/comment-page-1)  # 响应
print(res.text)             # 打印网页源代码

4:获取源代码后,提取url,获取每页图片url

href = re.findall(r’<img src="(.?)" alt=".?"’, res.text) # 筛选
print(href) #打印出一页的所有图片url
5:获取之后就可以下载,保存图片了 ,,想想就激动。直接写到一个方法里就可以了,

def imgurl(url):

    for i in url:
        #    meiziid = url[-14:-11]  # 切片将src的倒数的字符串做名字
        #    print('开始下载妹子:', format(meiziid))  # 输出窗口提示下载
        root = 'C://Users//Administrator//Desktop//python爬虫//tupian//meizitu//
        tupian_3//'   # 下载的图片存放位置
        path = root + i.split('/')[-1]
        #  添加headers模拟浏览器工作 反反爬
        headers = {
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
            'Referer': 'http://www.mzitu.com'
        }
        response = requests.get(i, headers=headers)
        f = open(path, 'wb')  # 放在目录下
        f.write(response.content)
        f.close()
        print('===> %s 完成 ' % (i))

6:这就完成了,把刚才获取网页和提取图片url的都放到一块

def imgpage(page=''):
   
   res = requests.get('http://www.mzitu.com/zipai/comment-page-' + page)

   href = re.findall(r'<img src="(.*?)" alt=".*?"', res.text)  # 筛选

   imgurl(href)

7:然后再进行循环下载

for i in range(1,366):
    imgpage(str(i))
     ```
**8:这就大功告成了,我把完整的代码放上,**
```javascript
#coding=utf-8
import requests
from bs4 import BeautifulSoup
import re
from lxml import etree

def imgurl(url):

    for i in url:
        #    meiziid = url[-14:-11]  # 切片将src的倒数的字符串做名字
        #    print('开始下载妹子:', format(meiziid))  # 输出窗口提示下载
        root = 'C://Users//Administrator//Desktop//python爬虫//tupian//meizitu//tupian_3//'
        path = root + i.split('/')[-1]
        #  添加headers模拟浏览器工作 反反爬
        headers = {
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
            'Referer': 'http://www.mzitu.com'
        }
        response = requests.get(i, headers=headers)
        f = open(path, 'wb')  # 放在目录下
        f.write(response.content)
        f.close()
        print('===> %s 完成 ' % (i))

def imgpage(page=''):

    res = requests.get('http://www.mzitu.com/zipai/comment-page-' + page)

    href = re.findall(r'<img src="(.*?)" alt=".*?"', res.text)  # 筛选

    imgurl(href)

for i in range(1,366):
    imgpage(str(i))

9:让我们运行看看如何
在这里插入图片描述
在这里插入图片描述
运行的完美,爬虫有实效性,如果网站进行更改的话,就不能用了,就要进行稍微修改才能使用,希望能给你提供帮助。

猜你喜欢

转载自blog.csdn.net/qq_37592047/article/details/83243126