py是个好东西
# coding=utf-8 import requests import sys from bs4 import BeautifulSoup from multiprocessing import Pool # 引入模块 import os def mkdir(path): # 去除首位空格 path = path.strip() # 去除尾部 \ 符号 path = path.rstrip("\\") # 判断路径是否存在 # 存在 True # 不存在 False isExists = os.path.exists(path) # 判断结果 if not isExists: # 如果不存在则创建目录 # 创建目录操作函数 os.makedirs(path) print path + ' 创建成功' return True else: # 如果目录存在则不创建,并提示目录已存在 print path + ' 目录已存在' return False # 详情页通用前缀 skuDetailPath = 'http://www.xxxx.com/products/' # 首页地址 url = 'http://www.xxxx.com/products/MAGENTO_0' # 假装头 header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'} html = requests.get(url, headers=header) # 使用自带的html.parser解析,速度慢但很通用 soup = BeautifulSoup(html.text, 'html.parser') # 实际上是第一个class = 'con'的div里的所有a 标签是我要搞他的东西 all_a = soup.find('div', class_='con').find_all('a') # 线程池中线程数 多线程不会写 放弃 # pool = Pool(5) beforeSku = 'NA' for a in all_a: # 拿Sku作为文件名 sku = a.get("href") sku = sku[10:len(sku)] print(sku) # 扒它图床地址 pic_url = a.find('img') print(pic_url) html = requests.get(pic_url.get("load_src"), headers=header) # 创建文件夹 # 定义要创建的目录 if (sku == beforeSku): mkpath = "D:\pyproject\\" + sku + "\\" else: mkpath = "D:\pyproject\\" + sku + "\\" # 调用函数 mkdir(mkpath) os.chdir(mkpath) # 从详情页面开始扒 html = requests.get(skuDetailPath + sku, headers=header) # 使用自带的html.parser解析,速度慢但很通用 soup = BeautifulSoup(html.text, 'html.parser') all_detail_img = soup.find('div', class_='detail_page_con_center_img').find_all('img') for index, detail_img in enumerate(all_detail_img): detail_path = detail_img.get("detail_src") detail_html = requests.get(detail_path, headers=header) # 开始下载 f = open(sku + '_'+str(index)+ '.jpg', 'wb') f.write(detail_html.content) f.close() beforeSku = sku # pool.close() # pool.join()
10秒下载完后的效果图: