# 字符串初始化
# html = '<div><ul class="list" ><li class="i_0">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html) #声明pq对象,html作为参数
# print(doc('li'))
# url初始化
# from pyquery import PyQuery as pq
# doc = pq(url='http://www.baidu.com')
# print(doc('head')) # 打印头部信息
# 本地文件初始化
# from pyquery import PyQuery as pq
# doc = pq(filename='demo.html') # 读取本地文件
# print(doc('li'))
# 基本css选择器
# from pyquery import PyQuery as pq
# doc = pq(html)
# print(doc('.i_3 #where')) # 与其他css选择器相同
# # 查找子元素
# from pyquery import PyQuery as pq
# doc = pq(html)
# item = doc('.list')
# # print(type(item))
# # print(item)
# lis = item.find('li') # 常用:使用find()方法查找元素子元素,其中的参数也是css选择器,只要在他里面就可以查找
# # print(type(lis)) # 每一个选择的结果都是pyquery对象,则可以使用嵌套
# # print(lis)
# lists = item.children() # 也可以在其中传入参数
#
# print(type(lis))
# print(lis)
# 父元素
# item = doc('.list')
# parent = item.parents() #也可以在其中传入css选择器,item.parents('.class')
# print(parent)
# 兄弟元素
# html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.i_0')
# print(li.siblings()) ## 输出出所有的li
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li') # 与下面达到的效果相同
# print(li)
#
# 遍历
# from pyquery import PyQuery as pq
# doc = pq(html)
# lis = doc('li').items() # 创建一个产生器,然后构造一个循环,对lis进行遍历输出
# print(type(lis))
# for li in lis:
# print(li)
# 获取属性
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li')
#
# a = doc('.i_1 a')
# # print(a)
# print(a.attr('href')) #获取属性方法1:使用attr()方法,直接将参数传入
# print(a.attr.href) # 获取属性方法2
#获取文本:使用.text()方法来获取文本
# print(a.text()) # 获取a标签的内容、
#
# 获取html
# # 使用html方法
# print(li.html())
# DOM操作
# add class,move class :完成对class的操作
from pyquery import PyQuery as pq
html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1 active"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# doc = pq(html)
# li = doc('.i_0.active')
# print(li)
# li.removeClass('active')
# print(li)
# li.addClass('active')
# print(li)
# print(li)
# attr,css属性
# doc = pq(html)
# li = doc('.i_1.active') # 为li标签添加name属性和link属性值
# print(li)
# li.attr('name','link')
# print(li)
# li.css('font-size','14px') # 为li标签添加font-size属性
# print(li)
# html = '<div class="wrap">hello,world<p>this is a</p></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# wrap = doc('.wrap')
# print(wrap.text())
# wrap.find('p').remove()
# print(wrap.text())
python爬虫之PyQuery库程序笔记
猜你喜欢
转载自blog.csdn.net/qq_40605167/article/details/81297237
今日推荐
周排行