# coding: utf-8
# 引入requests请求包
import requests
import urllib
# 1.准备url
numbers = raw_input('请输入要下载图片帖子编号:')
url = 'https://tieba.baidu.com/p/%s' % numbers
# 2.发起请求,拿回响应数据
response = requests.get(url)
# 3.取出网页源代码
html = response.content
# 查找页数
page_start = '共<span class="red">'
start = html.find(page_start)
page_end = '</span>页'
end = html.find(page_end, start)
total_page = html[start+len(page_start):end]
# 4.查找的开始字符串和结束字符串
start_str = '<img class="BDE_Image" src="'
end_str = '.jpg'
# 循环总页数次
for x in range(1,int(total_page)+1):
# 获取每一页的html源代码
url = 'https://tieba.baidu.com/p/%s?pn=%s' % (numbers, x)
response = requests.get(url)
html = response.content
# 获取该页共有多少张图片
total_count = html.count(start_str)
print '正在解析第%s页,共搜索到%s张图片!'%(x, total_count)
# 5.查找开始字符串的位置
start = html.find(start_str)
# 6.只要start不等于-1,那就说明找到了图片标签
count = 0
while start != -1:
# 7.从start开始,向后查找到end结束的位置
end = html.find(end_str, start, len(html))
# 8.截取图片的链接字符串
href = html[start+len(start_str) : end+len(end_str)]
# 9.继续查找下一个图片标签的位置,如果找不到为-1,循环结束
start = html.find(start_str, end+len(end_str), len(html))
# 10.分割图片名称
pic_name = href.split('/')[-1]
# 计算正在下载第几张 count+=1 和 count = count+1
count += 1
print '正在下载第%s张......'%count
# 11.下载图片
urllib.urlretrieve(href, pic_name)
改写成函数形式
# coding: utf-8
'''
1.准备要爬取的url地址
2.根据url地址发起请求,接受响应数据
3.从html源代码中,提取该篇帖子共有多少页(总页数)
4.准备用于查找图片位置的开始和结束的字符串
5.for循环循环总页数次
5.1 把x的值作为页码,拼接完整的url地址
5.2 根据url发起请求,接受当前页的响应数据(网页源代码)
5.3 搜索该页中共有多少张图片 使用string.count()函数
5.4 查找第一张图片的开始位置
5.5 while循环,只要图片的开始位置不等于-1,表示找到了,执行循环内容
5.5.1 找到图片结束的位置,从上一次找到的图片开始位置之后查找
5.5.2 根据开始和结束的位置 截取字符串(图片的链接)
5.5.3 通过分割字符串,获取图片的名称
5.5.4 使用urllib.urlretrieve()函数 下载图片
'''
# 引入requests请求包
import requests
import urllib
# 给一个url参数,返回源代码
def get_datasource(url):
response = requests.get(url)
return response.content
# 获取总页数,参数 html源代码
def get_totalpage(html):
# 查找页数
page_start = '共<span class="red">'
start = html.find(page_start)
page_end = '</span>页'
end = html.find(page_end, start)
total_page = html[start + len(page_start):end]
# 返回数字总页码
return int(total_page)
# 根据总页数,for循环轮流解析每页图片的url地址
def parse_href(total_page, html, numbers):
# 4.查找的开始字符串和结束字符串
start_str = '<img class="BDE_Image" src="'
index = html.find(start_str)
if index == -1:
start_str = '<img class="BDE_Image" pic_type="0" src="'
end_str = '.jpg'
# 循环总页数次
for x in range(1, int(total_page) + 1):
# 获取每一页的html源代码
url = 'https://tieba.baidu.com/p/%s?pn=%s' % (numbers, x)
print url
response = requests.get(url)
html = response.content
# 获取该页共有多少张图片
total_count = html.count(start_str)
print '正在解析第%s页,共搜索到%s张图片!' % (x, total_count)
# 5.查找开始字符串的位置
start = html.find(start_str)
# 6.只要start不等于-1,那就说明找到了图片标签
count = 0
while start != -1:
# 7.从start开始,向后查找到end结束的位置
end = html.find(end_str, start, len(html))
# 8.截取图片的链接字符串
href = html[start + len(start_str): end + len(end_str)]
# 9.继续查找下一个图片标签的位置,如果找不到为-1,循环结束
start = html.find(start_str, end + len(end_str), len(html))
# 10.分割图片名称
pic_name = href.split('/')[-1]
# 计算正在下载第几张 count+=1 和 count = count+1
count += 1
print '正在下载第%s张......' % count
# 11.下载图片
urllib.urlretrieve(href, pic_name)
# 入口函数
def main():
# 1.准备url
numbers = raw_input('请输入要下载图片帖子编号:')
url = 'https://tieba.baidu.com/p/%s' % numbers
# 2.发起请求,拿回响应数据
html = get_datasource(url)
# 3.根据源代码获取总页数
total_page = get_totalpage(html)
# 4.根据总页数提取图片、下载图片
parse_href(total_page, html, numbers)
# 执行main函数即可执行爬虫
main()