PyQuery库
'''强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,又觉得BeautifulSoup
语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。'''
from pyquery import PyQuery as pq
'''初始化'''
#字符串初始化
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
doc = pq(html)
print(doc('li')) #CSS选择器 #URL初始化
doc = pq(url="http://www.baidu.com")
print(doc('head')) #文件初始化
doc = pq(filename='demo.html')
print(doc('li')) '''基本CSS选择器'''
print("-基本CSS选择器-"*20)
doc = pq(html)
print(doc("#container .list li")) #空格表示子孙关系,非直接父子关系
#子元素
items = doc(".list")
print(type(items),items)
## find()是在当前items元素下查找
lis = items.find('li')
print(type(lis),lis)
print(items.children())
print(items.children('.active'))
#父元素
items = doc('.list')
parents = items.parents() #返回所有的祖先元素
print(parents)
parent = items.parents('.wrap')
print(parent)
#兄弟元素
li = doc(".list .item-0.active") #.item-0和.active之间无空格,表示并列同时满足,多类选择器。
print(li.siblings())
print(li.siblings('.active'))
'''遍历'''
print("-遍历-"*20)
#单个元素
li = doc(".item-0.active")
print(li)
#多个元素
lis = doc('li').items()
print(type(lis))
for li in lis:
print(li) '''获取信息'''
print("-获取信息-"*20)
#获取属性
a = doc(".item-0.active a")
print(a)
print(a.attr('href'))
print(a.attr.href)
#获取文本
a = doc(".item-0.active a")
print(a.text())
#获取HTML
a = doc(".item-0.active")
print(a)
print(a.html()) #获取标签里边的HTML代码
'''DOM操作'''
print("-DOM操作-"*20)
#addClass、removeClass
li = doc('.item-0.active')
print(li)
li.removeClass('active') #将得到的li标签元素去除active类标签
print(li)
li.addClass('active') #将得到的li标签元素添加active类标签
print(li)
#attr、css
li.attr('name','link') #添加name属性值为link
print(li)
li.css('font-size','14px') #添加一个css属性font-size值为14px
print(li)
#remove
htm = '''
<div class="wrap">
Hello,World
<p>This is a paragraph.</p>
</div>
'''
do = pq(htm)
wrap = do('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text()) '''伪类选择器'''
print("-伪类选择器-"*20)
li = doc("li:first-child") #得到第一个li
print(li)
li = doc("li:last-child") #得到最后一个li
print(li)
li = doc("li:nth-child(2)") #得到第二个li
print(li)
li = doc("li:gt(2)") #得到第二个以后的li
print(li)
li = doc("li:nth-child(2n)") #返回第偶数个li
print(li)
li = doc("li:contains(second)") #返回包含second内容的li
print(li)
更多伪类选择器用法参考:https://www.cnblogs.com/miss85246/p/10397601.html
PyQuery库的更多相关文章
- python爬虫从入门到放弃(七)之 PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- 爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
- Python中PyQuery库的使用总结
介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...
- Python爬虫-- PyQuery库
PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...
- PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
- 学习PyQuery库
学习PyQuery库 好了,又是学习的时光啦,今天学习pyquery 来进行网页解析 常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...
- python之爬虫(九)PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- Python中PyQuery库的使用
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...
- 爬虫6:pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择 一. 初始化 1. 字符串初始化 h ...
随机推荐
- solidity高级理论(三):时间单位与view
solidity高级理论(三):时间单位与view 关键字:时间单位.view.Gas优化 solidity使用自己的本地时间单位 变量 now 将返回当前的unix时间戳(自1970年1月1日以来经 ...
- CentOS 7更改yum源与更新系统
在CentOS 7下更改yum源与更新系统. [1] 首先备份/etc/yum.repos.d/CentOS-Base.repo cp /etc/yum.repos.d/CentOS-Base.rep ...
- define和typedef的区别
define和typedef的区别 define是单纯的字符替换,typedef是重新定义了新的类型 #include <stdio.h> #define CHAR1 char* type ...
- 6. svg学习笔记-路径
路径相比于多边形<polygon>元素具有更强绘图能力,<polygon>元素可以绘制任意的多边形,而路径可以绘制任意的轮廓线,是线段,曲线,圆弧的组合形式.svg中可以使用& ...
- Git&GitHub-基础教程
目录 1. Git简介 1.1 什么是版本控制系统? 1.2. Git的历史 1.3. 什么是分布式?什么是集中式? 2. Git安装 3. 创建一个版本库 4. Git的语法教程 4.1. 提交一个 ...
- 注册mySQL到JDBC驱动程序方法浅谈
一.注册方法(4种) 1)服务提供者框架: 符合JDBC 4.0规范的驱动程序包含了一个文件META-INF/services/java.sql.Driver,在这个文件中提供了JDBC驱动实现的类名 ...
- vue中父组件调用子组件函数
用法: 子组件上定义ref="refName", 父组件的方法中用 this.$refs.refName.method 去调用子组件方法 详解: 父组件里面调用子组件的函数,父组 ...
- js开发打印证书功能
最近突然被加了要打印证书的功能的需求.其实打印功能很简单,直接调用window.print()就可以打印,只是这是最基本的打印,会打印当前页面的所有元素,而我们要的是局部打印,实现方法: 1.设置好开 ...
- MySQL高级知识(十二)——全局查询日志
前言:全局查询日志用于保存所有的sql执行记录,该功能主要用于测试环境,在生产环境中永远不要开启该功能. 1.如何开启 #1.通过my.cnf配置开启该功能. 注:对my.cnf文件配置后,需重启my ...
- 利用nginx搭建小型的文件服务器
PS内的文件如果需要共享给其他计算机下载,可以选择ftp的方式,优点是操作性很高,修改删除下载等等都可以,但是速度略慢. 如果仅仅是将VPS作为文件中转站,可以尝试用Nginx架设一个简单的文件服务器 ...