'''强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,又觉得BeautifulSoup
语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。'''
from pyquery import PyQuery as pq
'''初始化'''
#字符串初始化
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
doc = pq(html)
print(doc('li')) #CSS选择器 #URL初始化
doc = pq(url="http://www.baidu.com")
print(doc('head')) #文件初始化
doc = pq(filename='demo.html')
print(doc('li')) '''基本CSS选择器'''
print("-基本CSS选择器-"*20)
doc = pq(html)
print(doc("#container .list li")) #空格表示子孙关系,非直接父子关系
#子元素
items = doc(".list")
print(type(items),items)
## find()是在当前items元素下查找
lis = items.find('li')
print(type(lis),lis)
print(items.children())
print(items.children('.active'))
#父元素
items = doc('.list')
parents = items.parents() #返回所有的祖先元素
print(parents)
parent = items.parents('.wrap')
print(parent)
#兄弟元素
li = doc(".list .item-0.active") #.item-0和.active之间无空格,表示并列同时满足,多类选择器。
print(li.siblings())
print(li.siblings('.active'))
'''遍历'''
print("-遍历-"*20)
#单个元素
li = doc(".item-0.active")
print(li)
#多个元素
lis = doc('li').items()
print(type(lis))
for li in lis:
print(li) '''获取信息'''
print("-获取信息-"*20)
#获取属性
a = doc(".item-0.active a")
print(a)
print(a.attr('href'))
print(a.attr.href)
#获取文本
a = doc(".item-0.active a")
print(a.text())
#获取HTML
a = doc(".item-0.active")
print(a)
print(a.html()) #获取标签里边的HTML代码
'''DOM操作'''
print("-DOM操作-"*20)
#addClass、removeClass
li = doc('.item-0.active')
print(li)
li.removeClass('active') #将得到的li标签元素去除active类标签
print(li)
li.addClass('active') #将得到的li标签元素添加active类标签
print(li)
#attr、css
li.attr('name','link') #添加name属性值为link
print(li)
li.css('font-size','14px') #添加一个css属性font-size值为14px
print(li)
#remove
htm = '''
<div class="wrap">
Hello,World
<p>This is a paragraph.</p>
</div>
'''
do = pq(htm)
wrap = do('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text()) '''伪类选择器'''
print("-伪类选择器-"*20)
li = doc("li:first-child") #得到第一个li
print(li)
li = doc("li:last-child") #得到最后一个li
print(li)
li = doc("li:nth-child(2)") #得到第二个li
print(li)
li = doc("li:gt(2)") #得到第二个以后的li
print(li)
li = doc("li:nth-child(2n)") #返回第偶数个li
print(li)
li = doc("li:contains(second)") #返回包含second内容的li
print(li)
更多伪类选择器用法参考:https://www.cnblogs.com/miss85246/p/10397601.html
												

PyQuery库的更多相关文章

  1. python爬虫从入门到放弃(七)之 PyQuery库的使用

    PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...

  2. 爬虫常用库之pyquery 库

    pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...

  3. Python中PyQuery库的使用总结

    介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...

  4. Python爬虫-- PyQuery库

    PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...

  5. PYTHON 爬虫笔记六:PyQuery库基础用法

    知识点一:PyQuery库详解及其基本使用 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...

  6. 学习PyQuery库

    学习PyQuery库 好了,又是学习的时光啦,今天学习pyquery 来进行网页解析 常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...

  7. python之爬虫(九)PyQuery库的使用

    PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...

  8. Python中PyQuery库的使用

    pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...

  9. 爬虫6:pyquery库

      强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择     一. 初始化 1. 字符串初始化 h ...

随机推荐

  1. MySQL高性能优化实战总结!

    1.1 前言 MySQL对于很多Linux从业者而言,是一个非常棘手的问题,多数情况都是因为对数据库出现问题的情况和处理思路不清晰.在进行MySQL的优化之前必须要了解的就是MySQL的查询过程,很多 ...

  2. MySQL用户远程登录问题

    今天来水一篇,差点被这个远程登录搞死了,所以记录下这个问题. 先使用status命令查看一下MySQL版本,这里可以可以看到我用的是是8.0.12版本. mysql> status ------ ...

  3. CSS2属性选择器和css3选择器的用法和区别

    兄弟们,这是我第一次写博客,希望对进来的人有用,写的不好别喷哈,谢谢. css2属性选择器: 1.[attribute] 例子:   [title] 解释:   选择含有  title  属性的所有元 ...

  4. 【算法】LeetCode算法题-Valid Parentheses

    这是悦乐书的第147次更新,第149篇原创 01 看题和准备 今天介绍的是LeetCode算法题中Easy级别的第6题(顺位题号是20),给定一个只包含字符'(',')','{','}','['和'] ...

  5. 【算法】LeetCode算法题-Roman To Integer

    这是悦乐书的第145次更新,第147篇原创 今天这道题和罗马数字有关,罗马数字也是可以表示整数的,如"I"表示数字1,"IV"表示数字4,下面这道题目就和罗马数 ...

  6. 加一的golang实现

    给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一. 最高位数字存放在数组的首位, 数组中每个元素只存储一个数字. 你可以假设除了整数 0 之外,这个整数不会以零开头. 输入: [,,] ...

  7. MySQL高级知识(七)——索引面试题分析

    前言:该篇随笔通过一些案例,对索引相关的面试题进行分析. 0.准备 #1.创建test表(测试表). drop table if exists test; create table test( id ...

  8. UVA1616-Caravan Robbers(枚举)

    Problem UVA1616-Caravan Robbers Accept: 160  Submit: 1156Time Limit: 3000 mSec Problem Description O ...

  9. 强化学习(四)—— DQN系列(DQN, Nature DQN, DDQN, Dueling DQN等)

    1 概述 在之前介绍的几种方法,我们对值函数一直有一个很大的限制,那就是它们需要用表格的形式表示.虽说表格形式对于求解有很大的帮助,但它也有自己的缺点.如果问题的状态和行动的空间非常大,使用表格表示难 ...

  10. 转://Linux下误删除/home目录的恢复方法

    一般情况下,我们在安装Oracle数据库的时候,都会创建一个Oracle用户,用该用户来安装和管理Oracle.Oracle用户的根目录就是/home/oracle. 通常安装Oracle数据库是按照 ...