爬取贴吧图片（静态网页）【bs解析网页+re正则匹配】 - 代码天地

爬取贴吧图片（静态网页）【bs解析网页+re正则匹配】

其他 2019-01-24 00:06:49 阅读次数: 0

#解析标签内容-------使用get_text()获得文本内容,使用get('')方法获取标签属性值

import requests
from bs4 import BeautifulSoup
import re

url = 'http://tieba.baidu.com/p/4178314700'

def get_html():
    html = requests.get(url).text
    return html

def getimage(html):
    soup = BeautifulSoup(html,'lxml')

    #reg = re.compile('http://.*?\.jpg')
    #imglist1 = re.findall(reg,html)
    #print(type(imglist1[0]))#<class 'str'>

    imglist = []
    List = soup.find_all('img')
    #print(type(List[0]))#<class 'bs4.element.Tag'>

    #print(type(List[0].get_text()))

    test =[]
    
    pattern = re.compile(r'https:/.*.jpg')
    
    for img in List:
        imglist.append(img.get('src'))
    #print(type(imglist[0]))#<class 'str'>
    
    for i in imglist:
        if re.match(pattern,i):
            test.append(i)
        
    for i in test:
        print(i)
    

    x = 0 
    for i in test:
        with open('C:/Users/Lenovo/Desktop/Pic/%s.jpg' %x, 'wb') as file:
            file.write(requests.get(i).content)
        x+=1

    #    print(i.find_all('a'))#两层标签查找
    #List2 = soup.find_all(attrs = {'name':'elements'})
    

if __name__ == '__main__':
    html = get_html()
    getimage(html)

猜你喜欢

转载自blog.csdn.net/qq_41333844/article/details/85252843

爬取贴吧图片（静态网页）【bs解析网页+re正则匹配】

python：爬取贴吧的某个吧的网页信息

【2019.05】python 爬取百度贴吧图片并保存（爬虫）有坑———解析不了网页！还有这种反爬策略！

爬取贴吧图片

爬虫--爬取网页图片--bs4

1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字）

PythonScript_004_正则匹配_抓取静态网页(内涵吧)的图片

爬取静态网页

Python3-网页爬取-批量爬取贴吧页面数据

python re正则匹配网页中图片url地址

爬取网页图片

动态网页图片爬取【requests + re】

静态网页正则表达式爬取图片并保存

urllib:爬取贴吧静态数据

bs4爬取网页基础

Python实现爬取贴吧图片

python爬取贴吧图片

python 爬取静态网页

爬取百度贴吧html网页HTML代码，爬虫案例

爬取贴吧网页保存到本地文件夹中

Spider--实战--bs静态网页爬取TOP250电影

Python爬取网页图片

关于网页图片的爬取

【python】爬取网页图片

Java爬取网页图片

【爬虫】爬取网页图片

Shell—爬取网页图片

爬取贴吧

贴吧爬取

用re库正则表达式提取bs4爬取下来的网页的时候的注意

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)