首页
移动开发
物联网
服务端
编程语言
企业开发
数据库
业界资讯
其他
搜索
爬虫基础总结4
其他
2020-04-20 11:01:05
阅读次数: 0
正则表达式
P = re.compile(regex, re.S)
P.findall("str")
P.sub("_", "str")
re.findall(regex, "str")
re.sub(regex,"_", str)
原始字符串r 在正则中忽略转义带来的影响
re.findall("<p>(.*?)</p>", sre)
xpath
获取文本
A/text()
A//text()
A[text()="下一页"]
@符号
获取属性 A/@href
根据属性定位 A[@class='a']
//
放在xpath最前面表示选择当前页面html页面任意元素
A//text()获取A下的任意元素的文本
//a[1] 第一个
//a[last()] 最后一个
//a[position()<3] 取前两个
//a[1]|//a[3] |表示或的意思
lxml
1.from lxml import stree
2.element=stree.HTML(bytes/str)
返回element对象,具有xpath
3.etree.tostring(element) 返回element中的字符串格式
element.xpath
1.先分组
2.分组提取数据
li.xpath("./a/text()")
li.xpath("./a/@href")
猜你喜欢
转载自
www.cnblogs.com/wsilj/p/12736407.html
爬虫基础总结4
爬虫总结4
爬虫基础总结3
【爬虫解析4】:requests总结
爬虫基础——BeautifulSoup4
爬虫基础教程 —— 4
python爬虫-基础用法总结
Python-爬虫基础总结
Java基础总结4
html基础总结4
JavaScript基础总结(4)
python爬虫基础(4:数据保存)
python爬虫实战:基础爬虫(使用BeautifulSoup4等) python爬虫实战:基础爬虫(使用BeautifulSoup4等)
完美Python爬虫入门基础总结
python爬虫基础知识的总结
4.Bootstrap基础总结
python基础总结4——文件
angular4 基础总结
UE4基础总结
JS基础总结(4)—— 异步
Python爬虫beautifulsoup4常用的解析方法总结
爬虫4
python爬虫基础知识——requests、bs4的使用
Python 爬虫之数据解析模块bs4基础
爬虫 之 BeautifulSoup4 基础教程
爬虫基础(4)发送请求之requests库的使用
python爬虫之BeautifulSoup4基础教程
Java基础知识总结(4)
学习总结——python的基础4(函数、模块)
JAVA基础知识总结4——IO
今日推荐
周排行
成为C++高手之宏与枚举
在CAD二次开发中使用进度条
Js插件ECharts,HighCharts学习网址整理
Celery提交任务出错(on windows.)
cephfs内核客户端性能追踪
thinkphp中PHPExcel用法
EntityFramework动态组合多排序字段
汇编语言(八)实验9 根据材料编程
安装ubuntu后必须做的事情(对我而言)
JS函数式编程
每日归档
更多
2024-10-22(0)
2024-10-21(0)
2024-10-20(0)
2024-10-19(0)
2024-10-18(0)
2024-10-17(0)
2024-10-16(0)
2024-10-15(0)
2024-10-14(0)
2024-10-13(0)