先上实例代码:
1 from urllib.request import urlopen 2 from bs4 import BeautifulSoup 3 4 html = urlopen("http://www.pythonscraping.com/pages/page1.html") 5 bs0bj = BeautifulSoup(html.read()) 6 print(bs0bj.h1) 7 print(bs0bj.html.body.h1) 8 print(bs0bj.body.h1) 9 print(bs0bj.html.h1)
BeautifulSoup的作用,如官网所言:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
简单而言,就是解析网页结构,将html代码格式化。
待续...