python爬虫之PyQuery库程序笔记


# 字符串初始化
# html = '<div><ul class="list" ><li class="i_0">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)  #声明pq对象,html作为参数
# print(doc('li'))


# url初始化
# from pyquery import PyQuery as pq
# doc = pq(url='http://www.baidu.com')
# print(doc('head'))   # 打印头部信息




# 本地文件初始化
# from pyquery import PyQuery as pq
# doc = pq(filename='demo.html')   # 读取本地文件
# print(doc('li'))



# 基本css选择器
# from pyquery import PyQuery as pq
# doc = pq(html)
# print(doc('.i_3 #where')) # 与其他css选择器相同


# # 查找子元素
# from pyquery import PyQuery as pq
# doc = pq(html)
# item = doc('.list')
# # print(type(item))
# # print(item)
# lis = item.find('li')   #   常用：使用find()方法查找元素子元素，其中的参数也是css选择器，只要在他里面就可以查找
# # print(type(lis))  # 每一个选择的结果都是pyquery对象，则可以使用嵌套
# # print(lis)
# lists = item.children()   # 也可以在其中传入参数
#
# print(type(lis))
# print(lis)


# 父元素
# item = doc('.list')
# parent = item.parents()   #也可以在其中传入css选择器，item.parents('.class')
# print(parent)

# 兄弟元素
# html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.i_0')
# print(li.siblings())   ## 输出出所有的li

# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li')  # 与下面达到的效果相同
# print(li)
#


# 遍历
# from pyquery import PyQuery as pq
# doc = pq(html)
# lis = doc('li').items() # 创建一个产生器，然后构造一个循环，对lis进行遍历输出
# print(type(lis))
# for li in lis:
#     print(li)


# 获取属性
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li')
#
# a = doc('.i_1 a')
# # print(a)
# print(a.attr('href'))   #获取属性方法1：使用attr()方法，直接将参数传入
# print(a.attr.href)   # 获取属性方法2


#获取文本:使用.text()方法来获取文本
# print(a.text())   # 获取a标签的内容、
#


# 获取html
# # 使用html方法
# print(li.html())


 # DOM操作

# add class，move class :完成对class的操作
from pyquery import PyQuery as pq
html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1 active"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# doc = pq(html)
# li = doc('.i_0.active')
# print(li)
# li.removeClass('active')
# print(li)
# li.addClass('active')
# print(li)
# print(li)
# attr,css属性
# doc = pq(html)
# li = doc('.i_1.active')   # 为li标签添加name属性和link属性值
# print(li)
# li.attr('name','link')
# print(li)
# li.css('font-size','14px')   # 为li标签添加font-size属性
# print(li)

# html = '<div class="wrap">hello,world<p>this is a</p></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# wrap = doc('.wrap')
# print(wrap.text())
# wrap.find('p').remove()
# print(wrap.text())
python爬虫之PyQuery库程序笔记

猜你喜欢