Python爬虫学习笔记（三）

#抓取W网站上的图片 把这些图片保存到一个文件夹中
# import requests
# if __name__=="__main__":
#     url = 'https://pic.qiushibaike.com/system/pictures/12360/123607416/medium/E6SIOF2AAFJV6YZK.jpg'
#     # text 字符串 content 二进制 json() 对象
#     response = requests.get(url).content
#     #  w 以文本的方式写入  wb  以二进制的方式写入
#     with open('./qiushi.jpg','wb') as fp:
#         fp.write(response)
# <div class="thumb">
#
# <a href="/article/123595000" target="_blank">
# <img src="//pic.qiushibaike.com/system/pictures/12359/123595000/medium/6IUHDYTJXLDN16DA.jpg" alt="糗事#123595000" class="illustration" width="100%" height="auto">
# </a>
# </div>
import requests
import re
import os
if __name__=="__main__":
    if not os.path.exists('./qiutuLibs/'):#创建文件夹
        os.mkdir('./qiutuLibs/')
    url = 'https://www.qiushibaike.com/imgrank/'#整张网页的url  这个地址是直接在地址栏输入的 所以请求方式为get
    headers = {
    
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
    page_response = requests.get(url=url,headers=headers).text
    ex  = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'  ##构建正则表达式
    img_src_list = re.findall(ex,page_response,re.S)#re.S单行模式  re.M多行模式  #所有图片链接
    print(img_src_list)
    for src in img_src_list:
        src = "https:"+src#图片的真正链接
        img_data  = requests.get(url=src,headers=headers).content#通过图片链接将获取到的图片转为二进制
        img_name = src.split('/')[-1]#图片路径按/分割 【-1】代表分割的最后一个部分 将图片id作为图片name
        img_path = './qiutuLibs/'+img_name
        with open(img_path,'wb') as fp:# wb表示写入二进制数据
            fp.write(img_data)
            print(img_name,'下载完成！！')
Python爬虫学习笔记（三）

猜你喜欢