利用字符串匹配，截取图片链接，爬取nba百度贴吧

# coding: utf-8
# 引入requests请求包
import requests
import urllib
# 1.准备url
numbers = raw_input('请输入要下载图片帖子编号：')
url = 'https://tieba.baidu.com/p/%s' % numbers
# 2.发起请求，拿回响应数据
response = requests.get(url)
# 3.取出网页源代码
html = response.content
# 查找页数
page_start = '共<span class="red">'
start = html.find(page_start)
page_end = '</span>页'
end = html.find(page_end, start)
total_page = html[start+len(page_start):end]

# 4.查找的开始字符串和结束字符串
start_str = '<img class="BDE_Image" src="'
end_str = '.jpg'
# 循环总页数次
for x in range(1,int(total_page)+1):
    # 获取每一页的html源代码
    url = 'https://tieba.baidu.com/p/%s?pn=%s' % (numbers, x)
    response = requests.get(url)
    html = response.content
    # 获取该页共有多少张图片
    total_count = html.count(start_str)
    print '正在解析第%s页，共搜索到%s张图片!'%(x, total_count)
    # 5.查找开始字符串的位置
    start = html.find(start_str)
    # 6.只要start不等于-1，那就说明找到了图片标签
    count = 0
    while start != -1:
        # 7.从start开始，向后查找到end结束的位置
        end = html.find(end_str, start, len(html))
        # 8.截取图片的链接字符串
        href = html[start+len(start_str) : end+len(end_str)]
        # 9.继续查找下一个图片标签的位置，如果找不到为-1，循环结束
        start = html.find(start_str, end+len(end_str), len(html))
        # 10.分割图片名称
        pic_name = href.split('/')[-1]
        # 计算正在下载第几张 count+=1  和 count = count+1
        count += 1
        print '正在下载第%s张......'%count
        # 11.下载图片
        urllib.urlretrieve(href, pic_name)

改写成函数形式

# coding: utf-8
'''
1.准备要爬取的url地址
2.根据url地址发起请求，接受响应数据
3.从html源代码中，提取该篇帖子共有多少页(总页数)
4.准备用于查找图片位置的开始和结束的字符串
5.for循环循环总页数次
    5.1 把x的值作为页码，拼接完整的url地址
    5.2 根据url发起请求，接受当前页的响应数据(网页源代码)
    5.3 搜索该页中共有多少张图片 使用string.count()函数
    5.4 查找第一张图片的开始位置
    5.5 while循环，只要图片的开始位置不等于-1，表示找到了，执行循环内容
        5.5.1 找到图片结束的位置，从上一次找到的图片开始位置之后查找
        5.5.2 根据开始和结束的位置 截取字符串(图片的链接)
        5.5.3 通过分割字符串，获取图片的名称
        5.5.4 使用urllib.urlretrieve()函数  下载图片
'''
# 引入requests请求包
import requests
import urllib
# 给一个url参数，返回源代码

def get_datasource(url):
    response = requests.get(url)
    return response.content

# 获取总页数,参数 html源代码
def get_totalpage(html):
    # 查找页数
    page_start = '共<span class="red">'
    start = html.find(page_start)
    page_end = '</span>页'
    end = html.find(page_end, start)
    total_page = html[start + len(page_start):end]
    # 返回数字总页码
    return int(total_page)

# 根据总页数，for循环轮流解析每页图片的url地址
def parse_href(total_page, html, numbers):
    # 4.查找的开始字符串和结束字符串
    start_str = '<img class="BDE_Image" src="'
    index = html.find(start_str)
    if index == -1:
        start_str = '<img class="BDE_Image" pic_type="0" src="'
    end_str = '.jpg'
    # 循环总页数次
    for x in range(1, int(total_page) + 1):
        # 获取每一页的html源代码
        url = 'https://tieba.baidu.com/p/%s?pn=%s' % (numbers, x)
        print url
        response = requests.get(url)
        html = response.content
        # 获取该页共有多少张图片
        total_count = html.count(start_str)
        print '正在解析第%s页，共搜索到%s张图片!' % (x, total_count)
        # 5.查找开始字符串的位置
        start = html.find(start_str)
        # 6.只要start不等于-1，那就说明找到了图片标签
        count = 0
        while start != -1:
            # 7.从start开始，向后查找到end结束的位置
            end = html.find(end_str, start, len(html))
            # 8.截取图片的链接字符串
            href = html[start + len(start_str): end + len(end_str)]
            # 9.继续查找下一个图片标签的位置，如果找不到为-1，循环结束
            start = html.find(start_str, end + len(end_str), len(html))
            # 10.分割图片名称
            pic_name = href.split('/')[-1]
            # 计算正在下载第几张 count+=1  和 count = count+1
            count += 1
            print '正在下载第%s张......' % count
            # 11.下载图片
            urllib.urlretrieve(href, pic_name)

# 入口函数
def main():
    # 1.准备url
    numbers = raw_input('请输入要下载图片帖子编号：')
    url = 'https://tieba.baidu.com/p/%s' % numbers
    # 2.发起请求，拿回响应数据
    html = get_datasource(url)
    # 3.根据源代码获取总页数
    total_page = get_totalpage(html)
    # 4.根据总页数提取图片、下载图片
    parse_href(total_page, html, numbers)

# 执行main函数即可执行爬虫
main()

一只迟到的程序猿狗狗

发布了19 篇原创文章 · 获赞 6 · 访问量 6194

私信关注

利用字符串匹配，截取图片链接，爬取nba百度贴吧

猜你喜欢