6-29学习记录

Python

                                                                                                                                                                                ---小白121的记录笔记

Beautifulsoup

beautifulsoup 是 爬虫的一个第三方库,主要用于过滤出有用的数据

pip和ide工具都可以进行安装

BeautifulSoup 将 HTML 分成 四个对象

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

创建 Beautifulsoup 对象

soup = BeautifulSoup(html)

打印soup对象的内容

print(soup.prettify()

打印 Tag

 
 
print(soup.html.encode('utf-8'))
print(soup.title.encode('utf-8'))
print(soup.head.encode('utf-8'))
print(soup.a.encode('utf-8'))
print(soup.p.encode('utf-8'))
 

所以 Tag 即使 HTML 里面的各种标签

对于Tag来说,有两个重要的属性

  • name
  • attrs
print(soup.title.name)
print(soup.a.attrs)

name 输入当前标签名字

attrs 把a标签的所以属性打印出来

Navigablestring

print(soup.a.string)

显示当前标签的内容

单词

sibling    兄弟姐妹

with        等待

element    要素

document    文档

previous    以前的

猜你喜欢

转载自www.cnblogs.com/forever121812/p/9245690.html