第 0008 题：一个HTML文件，找出里面的正文。第 0009 题：一个HTML文件，找出里面的链接。

其他 2019-03-05 01:59:19 阅读次数: 0

from bs4 import BeautifulSoup

html_doc = open("F:\css,html\html\jianli2.html",'r',encoding='utf-8')


#读取html文件的句柄内容，因为beautifulsoup中的第一个参数是html文件的句柄内容而不是html文件

htmlhandle = html_doc.read()



#使用beautifulsoup解析功能，解析器使用lxml
soup = BeautifulSoup(htmlhandle,'html.parser')
#输出标题
print(soup.title)
#输出p标签的内容
print(soup.p)
#输出a链接
print(soup.a)
#输出body标签的内容也就是正文
print(soup.find_all('body'))
#输出整个html文件
print(soup.get_text)

猜你喜欢

转载自blog.csdn.net/myydebk666/article/details/84900900

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)

第 0008 题： 一个HTML文件，找出里面的正文。 第 0009 题： 一个HTML文件，找出里面的链接。

猜你喜欢

第 0008 题：一个HTML文件，找出里面的正文。第 0009 题：一个HTML文件，找出里面的链接。