浅谈Python爬虫里的compile与findAll合用 - 代码天地

浅谈Python爬虫里的compile与findAll合用

其他 2018-08-10 18:06:16 阅读次数: 0

直接上代码，爬取豆瓣读书的信息

import requests,re
from bs4 import BeautifulSoup
headers={'User-Agent':'....'}#写下你的user-agent

def getdata(url):
html=requests.get(url,headers=headers)
selector=BeautifulSoup(html.text,'lxml')
objs=selector.findAll('a',href=re.compile(r'.*?book.douban.com/subject/\d{7}/'))

#在这里，我用了正则表达式的一个方法，re.compile可以把正则字符串编译成正则表达式对象，里面包含的是所有符合条件的a标签的正则表达式，而findAll用于查找，这个方法会搜索整个字符串，然后返回匹配compile的所有内容

#返回的形式如下：[<a class="nbg" href="https://book.douban.com/subject/1084336/" onclick="moreurl(this,{i:'0',query:'',subject_id:'1084336',from:'book_subject_search'})"><img class="" src="https://img1.doubanio.com/view/subject/m/public/s1237549.jpg" width="90"/>
</a>]可以看出这是一个列表，每一个标签里面包含了该标签的所有属性

for obj in objs:
if 'title' in obj.attrs:
#用'title'可以把所有书籍提取出来，因为只有title这个属性是唯一的
print(obj)
我们现在试着爬取豆瓣读书的童话类书籍
getdata('https://book.douban.com/tag/%E7%AB%A5%E8%AF%9D')

总而言之，我们可以这样写
finaAll('标签名'，属性=re.compile(正则表达式))

也可以是re.compile().findall()
返回一个可迭代的列表，最棒的是它里面包含了我们需要或者不需要的所有属性，所以我们可以用attrs提取

猜你喜欢

转载自blog.csdn.net/weixin_42557907/article/details/81121251

浅谈Python爬虫里的compile与findAll合用

python re.compile()和findall()

爬虫之正则表达式findall()-sub()-compile()

Python 正则re模块之compile()和findall()详解

Python爬虫之findall和lxml

pythoon爬虫（二十四）正则表达式findall、sub、split、compile函数

Python正则表达式--每日一点 compile filter findall

浅谈爬虫《一》 ===python

浅谈Python网络爬虫

python正则findall

Python十分适合用来开发网页爬虫

Python函数封装：利用正则表达式compile、findall对多组关键词进行模糊查询并返回统计个数，findall截取两个指定符号之间的内容

python正则表达式方法match(),search(),findall(),sub(),compile()（官方文档解释）一分钟看懂

Python：利用原生函数count或正则表达式compile、findall、finditer实现匹配统计(包括模糊匹配的贪婪匹配、懒惰匹配)

python的for else组合用法

python re模块findall()详解

Python---re.findall的用法

python jsonpath()、findall()提取值

浅谈基于Python的Scrapy爬虫入门

浅谈网络爬虫——基于Python实现

Python爬虫之多线程浅谈

Python爬虫之多进程浅谈

浅谈爬虫——基于python的requests模块

28Python正则表达式、正则表达式对象、正则表达式修饰符、表达式模板、表达式实例、match函数、search方法、检索和替换、repl、compile、findall等

return _compile(pattern, flags).findall(string) TypeError: cannot use a string pattern on a bytes-li

python内置函数 compile()

Python eval,exac,compile

Python : compile() 函数

python exe compile

Python compile() 函数

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)