PyQuery使用

PyQuery库是一个非常强大的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。它的语法与 jQuery 几乎完全相同，所以不用再去费心记一些奇怪的方法了。
官网地址：http://pyquery.readthedocs.io/en/latest/
jQuery参考文档： http://jquery.cuishifeng.cn/

1、字符串的初始化

from pyquery import PyQuery as pq

html = '''<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul></div>'''

doc = pq(html)
print(doc)
print(type(doc))
print(doc('li'))

2、打开html文件

注意路径问题

from pyquery import PyQuery as pq
doc = pq(filename='index.html')
print(doc)
print(doc('head'))

3、打开某个网站

doc = pq('https://www.baidu.com')
# doc1 = pq(url='https://www.baidu.com')
print(doc)
print(doc('head'))
　　

4、基于CSS选择器查找

from pyquery import PyQuery as pq

html = '''<div>
<ul id = 'haha'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul></div>'''

doc = pq(html)
print(doc)
#id等于haha下面的class等于item-0下的a标签下的span标签（注意层级关系以空格隔开）
print(doc('#haha .item-0 a span'))

5、可以通过已经查找到的标签，查找这个标签下的子标签或者父标签，而不用从头开始查找。

from pyquery import PyQuery as pq

html = '''<div class=‘content’>
<ul id = 'haha'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul></div>'''

doc = pq(html)
item = doc('div ul')
print(item)
#我们可以通过已经查找到的标签，再次查找这个标签下面的标签
print(item.parent())
print(item.children())

----------------------------------------------------------------

from pyquery import PyQuery as pq

doc = pq(html)
item = doc('div ul')
print(item)
#注意这里查找ul标签的所有子标签，也就是li标签，下面是查找class属性的标签，如果你把class换成href肯定不行，它指的只是儿子并不是子子孙孙
print(item.children('[class]'))

6、获取属性值

from pyquery import PyQuery as pq

doc = pq(html)
#注意class=item-0 active是一个class的属性，但是在pyquery里面要是中间也是空格隔开的话，
#就变成了item-0下的active标签下的a标签了，所以这里空格必须改成点
item = doc(".item-0.active a")
print(type(item))
print(item)
#获取属性值的两种方法
print(item.attr.href)
print(item.attr('href'))

7、获取标签的内容

from pyquery import PyQuery as pq

doc = pq(html)
a = doc("a").text()
print(a)

8、Dom操作

　　1、属性的增加删除操作

　　from pyquery import PyQuery as pq

　　html = '''<div class=‘content’>
　　<ul id = 'haha'>
　　<li class="item-0">first item</li>
　　<li class="item-1"><a href="link2.html">second item</a></li>
　　<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
　　<li class="item-1 active"><a href="link4.html">fourth item</a></li>
　　<li class="item-0"><a href="link5.html">fifth item</a></li>
　　</ul></div>'''

　　doc = pq(html)
　　li = doc('.item-0.active')
　　print(li)
　　#删除classactive
　　print(li.removeClass('active'))
　　#增加class属性haha
　　print(li.addClass('haha'))

　　2、attrs和css

　　注意：下列操作有则改之，无则加之。

　　from pyquery import PyQuery as pq

　　html = '''<div class=‘content’>
　　<ul id = 'haha'>
　　<li class="item-0">first item</li>
　　<li class="item-1"><a href="link2.html">second item</a></li>
　　<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
　　<li class="item-1 active"><a href="link4.html">fourth item</a></li>
　　<li class="item-0"><a href="link5.html">fifth item</a></li>
　　</ul></div>'''

　　doc = pq(html)
　　li = doc('.item-0.active')
　　print(li)
　　print(li.attr('id','id_test'))
　　print(li.css('font-size','20px'))

　　3、删除某个标签，在爬取过程中我们通常抓取到的内容总会有一些不想要的标签，这个时候我们可以用以下类似的方法来删除这些标签。

　　from pyquery import PyQuery as pq

　　html = '''<div class='content'>
　　<ul id = 'haha'>
　　<li class="item-0">first item</li>
　　<li class="item-1"><a href="link2.html">second item</a></li>
　　<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
　　<li class="item-1 active"><a href="link4.html">fourth item</a></li>
　　<li class="item-0"><a href="link5.html">fifth item</a></li>
　　</ul></div>'''

　　doc = pq(html)
　　data = doc('.content')
　　print(data.text())
　　#删除所有a标签
　　data.find('a').remove()
　　#再次打印
　　print(data.text())

PyQuery使用的更多相关文章

pyquery的问题
在使用pyquery时发现一些问题, 1.爬取的html中如果有较多的错误时,不能很好的补全. 2.如果要获取某个class中的内容时,如果内容太多不能取完整!只能取一部分. 这个在现在的最新版本中还 ...
python爬虫神器PyQuery的使用方法
你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些 ...
windows下python安装pyquery
安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...
Python开发包推荐系列之xml、html解析器PyQuery
使用python,喜欢她的简洁是一方面,另外就是它有着丰富的开发包好用又方便接下来会给大家推荐一系列很赞的开发包. 在解析html.xml过程中,我们有不少的包可以用.比如bs.lxml.xmlt ...
python - PyQuery
偶尔的机会,知道这么个扩展,手贱翻了下文档,发现似乎挺有意思,遂记录一二. what: 这是一个python版本的jquery,而且是后端执行的,至少官方是这么说的: pyquery allows y ...
【pyQuery】抓取startup news首页
#! /usr/bin/python # coding: utf-8 from pyquery import PyQuery c=PyQuery('http://news.dbanotes.net/' ...
【pyQuery分析实例】分析体育网冠军联盟比赛成绩
目标地址:http://www.espncricinfo.com/champions-league-twenty20-2012/engine/match/574265.html liz@nb-liz: ...
【PyQuery】PyQuery总结
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容, 官方文档地址是:http://packages.python.org/pyquery/. 二.使用方法 ? 1 fro ...
win7下python安装pyquery
安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...

随机推荐

在应用层通过spring特性解决数据库读写分离
如何配置mysql数据库的主从? 单机配置mysql主从:http://my.oschina.net/god/blog/496 常见的解决数据库读写分离有两种方案 1.应用层 http://neore ...
Win10 八步打通 Nuget 发布打包
我们可以使用Nuget 下载你所需要的资源包还可以将自己封装好的各种控件包工具包等上传nuget 我们只需要几步就完成你要发布的包. 第一步:编译你的控件 anycpu debug/release ...
HDU 1176 免费馅饼【动态规划】
解题思路:用a[i][j]表示在第i秒在地点j的掉落馅饼的数量,设整个馅饼掉落的时间持续为timemax,即为矩阵的高度,一共0到10个地点,为矩阵的长度,如图,即可构成数塔,因为考虑到在地点0的时候 ...
BZOJ 1834: [ZJOI2010]network 网络扩容最小费用流_最大流_残量网络
对于第一问,跑一遍最大流即可. 对于第二问,在残量网络上的两点间建立边 <u,v>,容量为无限大,费用为扩充费用. 跑一遍最小费用流即可. Code: #include <vecto ...
洛谷P2915 [USACO08NOV]奶牛混合起来Mixed Up Cows 状压动归
考场上空间开大了一倍就爆0了QAQ- Code: #include<cstdio> #include<algorithm> #include<cmath> usin ...
JS[获取两个日期中所有的月份]
//------[获取两个日期中所有的月份中] function getMonthBetween(start,end){ var result = []; var s = start.split(&q ...
CSS的引入方式和样式
CSS的引入方式和样式一.样式行内样式内接样式外接样式(1.链接式 2.导入式)  <div> <p style="color: ...
Nginx 项目部署和配置
nginx 作为代理服务器,需要代理多个项目的话配置如下: server { listen 80; server_name localhost; #charset koi8-r; #ac ...
ajax 获取 json 数据乱码
打开json文本把json文件另存为 'utf-8' 编码格式的文件.....
C#-入门思维导图
C#-入门思维导图百度云盘链接:http://pan.baidu.com/s/1jI5zMS2 密码:0ypc 如有错误,请告知我

PyQuery使用

PyQuery使用的更多相关文章

随机推荐

热门专题