python爬虫学习笔记4：信息提取

其他 2018-06-04 15:28:31 阅读次数: 0

信息组织与提取方法

信息标记的三种形式

xml

由HTML扩展而来的通用信息标记形式

实例

<person>
    <firstName>Tian</firstName>
    <lastName>Song</lastName>
    <address>
        <streeAddr>中关村南大街5号</streetAddr>
        <city>北京市</city>
        <zipcode>100081</zipcode>
    </address>
    <prof>Computer System</prof><prof>Security</prof>
<person>

扩展性好，但繁琐

json

有类型的键值对

"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalue"}

实例

{
    "firstName":"Tian",
    "lastNmae":"Song",
    "address":{
        "streetAddr":"中关村南大街5号",
        "city":"北京市",
        "zipcode":"100081"
            },
    "prof":["Computer System","Security"]
}

适合程序处理（js），较xml简洁

YAML

无类型键值对 key：value

由缩进表达所属关系，由|表达整块数据，#表示注释，-表示并列的值信息

key : value
key : #Comment
-value1
-value2
key :
    subkey : subvalue

text：|      #学校介绍
北京理工大学创立于……

实例

firstName : Tian
lastName : Song
address :
    atreeAddr :中关村南大街5号
    city:北京市
    zipcode:100081
prof :
-Computer System
-Security

可读性好

信息提取的一般方法

1.完整解析信息的标记形式，再提取关键信息
2.无视标记形式，直接搜索关键信息
3.融合1，2

基于bs4库的html内容查找方法

find_all()

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找的结果

name：对标签名称的检索字符串
attrs：对标签属性值的检索字符串，可标注属性检索
recursive：是否对子孙全部检索，默认为True
string：<>…</>中字符串区域的检索字符串

简写：
<tag>(…)等价于<tag>.find_all(…)
soup(…)等价于soup.find_all(…)

扩展方法

这里写图片描述

猜你喜欢

转载自blog.csdn.net/w0ryitang/article/details/80209624

python爬虫学习笔记4：信息提取

Python 信息提取-爬虫

Python 爬虫基础学习--网络爬虫与信息提取

网络爬虫笔记4，信息提取之Re库

爬虫学习(三)---基于bs4的信息提取

【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

第三次作业-MOOC学习笔记：Python网络爬虫与信息提取

第3次作业-MOCC学习笔记：Python网络爬虫与信息提取

Python爬虫中的信息提取

Python网络爬虫与信息提取（一）

Python网络爬虫与信息提取

Python网络爬虫与信息提取笔记05-信息组织与提取方法

Python网络爬虫与信息提取（4）—— 实战之爬取亚马逊商品信息

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取 1.注册中国大学MOOC

Python网络爬虫与信息提取（五）信息标记与信息提取的一般方法

Python网络爬虫与信息提取笔记08-实例2：淘宝商品比价定向爬虫

Python网络爬虫与信息提取（2）—— 爬虫协议

爬虫：网页信息提取

爬虫（四）信息提取

网络爬虫与信息提取

Python网络爬虫与信息提取（四）bs4的内容遍历方法及注意事项

Python网络爬虫与信息提取（三）bs4入门

Python网络爬虫基于BeautifulSoup4库的信息提取

嵩天教授的Python网络爬虫与信息提取课程笔记——requests库入门

python网络爬虫和信息提取笔记之BeautifulSoup类

Python网络爬虫与信息提取笔记01-Requests库入门

Python网络爬虫与信息提取笔记04-Beautiful Soup库入门

嵩天老师网络爬虫与信息提取课程学习笔记（二）

嵩天老师网络爬虫与信息提取课程学习笔记（三）

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)