Lxml库、Xpath语法与爬虫
1.认识HTML结构
2.XPath
3.实例:爬取起点中文网的全部作品信息
1.认识HTML结构
html标签组成是html文档的最基本元素,一般是成对出现,由开始标签和与其对应的结束标签构成. 如,
由于html语言是一门弱类型语言,对格式的要求不是非常严格,因此所有标签是不区分大小写的,但是,一般在实际开发中,大家都统一使用小写。
<html >
<head>
<meta charset="utf-8" > <!--网页编码声明-->
<title