使用pyquery

简单举例

 from pyquery import PyQuery as pq

 html = '''

 <div>

 <ul>

 <li class="item-O"><a href="linkl.html">first item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

 <li class="item-inactive"><a href="link3.html">third item</a></li>

 <li class="item-1"><a href="link4.html">fourth item</a></li>

 <li class="item-0"><a href="link5.html">fifth item</a>

 </ul>

 </div>

 '''

 doc = pq(html)

 print(doc)

 # 输出：

 <div>

 <ul>

 <li class="item-O"><a href="linkl.html">first item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

 <li class="item-inactive"><a href="link3.html">third item</a></li>

 <li class="item-1"><a href="link4.html">fourth item</a></li>

 <li class="item-0"><a href="link5.html">fifth item</a>

 </li></ul>

 </div>

字符串

 from pyquery import PyQuery as pq

 import requests

 # doc1 与 doc2 功能相同

 doc1 = pq(url='https://www.cnblogs.com/liyihua/')

 print(doc1('title'))

 doc2 = pq(requests.get('https://www.cnblogs.com/liyihua/').text)

 print(doc1('title'))

 # 输出：

 <title>李亦华 - 博客园</title>&#13;

 <title>李亦华 - 博客园</title>&#13;

URL

 from pyquery import PyQuery as pq

 doc = pq(filename='test.html')

 print(doc('li'))

 # 输出：

 <li class="item-O"><a href="linkl.html">first item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

 <li class="item-inactive"><a href="link3.html">third item</a></li>

 <li class="item-1"><a href="link4.html">fourth item</a></li>

 <li class="item-0"><a href="link5.html">fifth item</a>

 </li>

 # 文件内容：

 <div>

 <ul>

 <li class="item-O"><a href="linkl.html">first item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

 <li class="item-inactive"><a href="link3.html">third item</a></li>

 <li class="item-1"><a href="link4.html">fourth item</a></li>

 <li class="item-0"><a href="link5.html">fifth item</a>

 </ul>

 </div>

文件

基本CSS选择器

 from pyquery import PyQuery as pq

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = pq(html)

 print(doc('#container .list li'))

 print(

     type(

         doc('#container .list li')

     )

 )

 # 输出：

 <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

 <class 'pyquery.pyquery.PyQuery'>

查找节点

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 items = doc('.list')

 print(

     type(items),

     items,

     sep='\n'

 )

 print(

     type(items.find('li')),

     items.find('li'),

     sep='\n'

 )

 # 输出：

 <class 'pyquery.pyquery.PyQuery'>

 <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 <class 'pyquery.pyquery.PyQuery'>

 <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

子孙节点----find()方法

# find()方法查找的是所有子孙节点，如果只查找子节点，可以使用children()方法

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 items = doc('.list')

 print(items, '\n')

 print(

     type(items.parent()),

     items.parent(),

     sep='\n'

 )

 # 输出：

 <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 <class 'pyquery.pyquery.PyQuery'>

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

父节点----parent()方法

parents(selector=None)

parent(selector=None)

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 # 选择class为list的节点内部class为item-0和active的节点

 items = doc('.list .item-0.active')

 print(

     type(items.siblings()),

     items.siblings(),

     sep='\n'

 )

 print("\n", items.siblings('.active'))

 # 输出：

 <class 'pyquery.pyquery.PyQuery'>

 <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0">first item</li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

  <li class="item-1 active"><a href="link4.html">fourth item</a></li>

兄弟节点----siblings()方法

遍历

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 lis = doc('li').items()             # 调用items()方法，得到一个生成器

 for li in lis:

     print(

         li,

         type(li)

     )

 # 输出：

 <li class="item-0">first item</li>

           <class 'pyquery.pyquery.PyQuery'>

 <li class="item-1"><a href="link2.html">second item</a></li>

           <class 'pyquery.pyquery.PyQuery'>

 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

           <class 'pyquery.pyquery.PyQuery'>

 <li class="item-1 active"><a href="link4.html">fourth item</a></li>

           <class 'pyquery.pyquery.PyQuery'>

 <li class="item-0"><a href="link5.html">fifth item</a></li>

       <class 'pyquery.pyquery.PyQuery'>

遍历----items()

获取信息

获取属性

attr()方法获取属性

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 a = doc('.item-0.active a')

 print(

     a,

     type(a),

     a.attr('href'),             # 也可以用a.attr.href，两者作用相同

     sep='\n'

 )

 # 输出：

 <a href="link3.html"><span class="bold">third item</span></a>

 <class 'pyquery.pyquery.PyQuery'>

 link3.html

# 当返回结果包含多个节点时，调用attr()方法，只会得到第一个节点的属性。如果想获取所有返回的节点的属性，就要用到遍历了

获取文本

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 li = doc('li')

 print(

     li.html(),                  # 获取节点的内部文本

     li.text(),                  # 获取节点文本，返回结果是纯文字内容

     type(li.text()),

     sep='\n'

 )

 # 输出：

 first item

 first item second item third item fourth item fifth item

 <class 'str'>

节点操作

add_class() 和 remove_class() ---- 添加class、移除class

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 li = doc('.item-0.active')

 print(li)

 print(li.remove_class('active'))

 print(li.add_class('active'))

 # 输出：

 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

 <li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>

 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

attr、text 和 html

# attr(*args, **kwargs) ---- Attributes manipulation
# text(value=no_default, **kwargs) ---- Get or set the text representation of sub nodes.
# html(value=no_default, **kwargs) ---- Get or set the html representation of sub nodes.

 from pyquery import PyQuery

 html = '''

 <div id="container">

     <ul class="list">

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

      </ul>

 </div>

 '''

 doc = PyQuery(html)

 li = doc('.item-0.active')

 print(li)

 li.attr('name', 'link')         # 添加属性name，属性值为link

 print(li)

 li.text('change item')          # 将节点内部的内容改为'change item'

 print(li)

 li.html('<span>change item</span>')         # 将节点内部的内容改为'<span>change item</span>'

 print(li)

 # 输出：

 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

 <li class="item-0 active" name="link"><a href="link3.html"><span class="bold">third item</span></a></li>

 <li class="item-0 active" name="link">change item</li>

 <li class="item-0 active" name="link"><span>change item</span></li>

remove()----删除节点

 from pyquery import PyQuery

 html = '''

 <div class="LeeHua">

 LiYihua

 <ul class="201802004731">liyihua</ul>

 </div>

 '''

 doc = PyQuery(html)

 Leehua = doc('.LeeHua')

 print("移除节点ul前的输出：\n"+Leehua.text())

 Leehua.find('ul').remove()

 print("移除节点ul后的输出：\n"+Leehua.text())

 # 输出：

 移除节点ul前的输出：

 LiYihua

 liyihua

 移除节点ul后的输出：

 LiYihua

伪类选择器

示例：

 from pyquery import PyQuery

 html = '''

 <div class="wrap">

     <div id="container">

         <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

 '''

 doc = PyQuery(html)

 # 选择属于父元素的第一个子元素的每个 <li> 元素。

 li = doc('li:first-child')

 print(li)

 # 选择属于父元素的最后一个子元素的每个 <li> 元素。

 li = doc('li:last-child')

 print(li)

 # 选择属于其父元素的第二个子元素的每个 <li> 元素

 li = doc('li:nth-child(2)')

 print(li)

 # 选择属于其父元素的最后两个子元素的每个 <li> 元素

 li = doc('li:gt(2)')

 print(li)

 # 选择属于父元素的第偶个子元素的每个 <li> 元素。

 li = doc('li:nth-child(2n)')

 print(li)

 # 选择包含'second'的每个元素

 li = doc('li:contains(second)')

 print(li)

 # 输出：

 <li class="item-0">first item</li>

 <li class="item-0"><a href="link5.html">fifth item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

 <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

 <li class="item-1"><a href="link2.html">second item</a></li>

CSS 选择器的用法：http://www.w3school.com.cn/cssref/css_selectors.asp

使用pyquery的更多相关文章

pyquery的问题
在使用pyquery时发现一些问题, 1.爬取的html中如果有较多的错误时,不能很好的补全. 2.如果要获取某个class中的内容时,如果内容太多不能取完整!只能取一部分. 这个在现在的最新版本中还 ...
python爬虫神器PyQuery的使用方法
你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些 ...
windows下python安装pyquery
安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...
Python开发包推荐系列之xml、html解析器PyQuery
使用python,喜欢她的简洁是一方面,另外就是它有着丰富的开发包好用又方便接下来会给大家推荐一系列很赞的开发包. 在解析html.xml过程中,我们有不少的包可以用.比如bs.lxml.xmlt ...
python - PyQuery
偶尔的机会,知道这么个扩展,手贱翻了下文档,发现似乎挺有意思,遂记录一二. what: 这是一个python版本的jquery,而且是后端执行的,至少官方是这么说的: pyquery allows y ...
【pyQuery】抓取startup news首页
#! /usr/bin/python # coding: utf-8 from pyquery import PyQuery c=PyQuery('http://news.dbanotes.net/' ...
【pyQuery分析实例】分析体育网冠军联盟比赛成绩
目标地址:http://www.espncricinfo.com/champions-league-twenty20-2012/engine/match/574265.html liz@nb-liz: ...
【PyQuery】PyQuery总结
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容, 官方文档地址是:http://packages.python.org/pyquery/. 二.使用方法 ? 1 fro ...
win7下python安装pyquery
安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...

随机推荐

Gin框架介绍及使用
Gin是一个用Go语言编写的web框架.它是一个类似于martini但拥有更好性能的API框架, 由于使用了httprouter,速度提高了近40倍. 如果你是性能和高效的追求者, 你会爱上Gin. ...
Docker容器启动失败 Failed to start Docker Application Container Engine的解决办法
当编辑完daemon.json时,准备systemctl start docker.service启动docker时报以下错误: 网上查找的诸多方法都不行,后面看到一篇类似的文章:http://www ...
JVM垃圾回收（上）
Java 中的垃圾回收,常常是由 JVM 帮我们做好的.虽然这节省了大家很多的学习的成本,提高了项目的执行效率,但是当项目变得越来越复杂,用户量越来越大时,还是需要我们懂得垃圾回收机制,这样也能进行更 ...
PHP 插入排序 -- 折半查找
1. 折半查找 -- Binary Insertion Sort 时间复杂度 : O(n^2) 适用条件 : 相对直接插入排序,减少了数值的比较次数.适用于需要排序的数码比较少的情况. <?p ...
springboot Jar包部署到Linux服务器运行脚本
1.jar包同级目录 , 如下: #!/bin/sh RESOURCE_NAME=demo.jar tpid=`ps -ef|grep $RESOURCE_NAME|grep -v grep|grep ...
Flink整合oozie shell Action 提交任务带kerberos认证
最近这段时间一直在忙新集群迁移,上了最新的cdh6.3.0 于是Flink 提交遇到了许多的问题还好有cloudera License 有了原厂的帮助和社区的伙伴,问题解决起来快了不少,手动滑稽集 ...
[Abp vNext 源码分析] - 12. 后台作业与后台工作者
一.简要说明文章信息: 基于的 ABP vNext 版本:1.0.0 创作日期:2019 年 10 月 24 日晚更新日期:暂无 ABP vNext 提供了后台工作者和后台作业的支持,基本实现与原 ...
linux下执行脚本失败的解决办法
现象: 1的解决办法:赋予该文件可执行权限即可,chmod +x docker.sh 2的解决办法:https://blog.csdn.net/youzhouliu/article/details/7 ...
python编程系列---Pycharm快捷键(更新中....)
以下是我常用到的Pycharm快捷键(还有很多,只是我暂时用的最多的就这些): 在开发过程中,经常使用一些快捷键会大大提高开发效率,不要因为看这多而不用,常用的就那些,用得多就都记住了,脱离鼠标,逼格 ...
ESP8266开发之旅网络篇⑮ DNSServer——真正的域名服务
1. 前言 Arduino for esp8266中有两个DNS服务相关的库: ESP8266mDNS库这个库是mDNS库,使用这个库的时候ESP8266可以在AP模式或是以STA模式接入局 ...

使用pyquery

简单举例

基本CSS选择器

查找节点

遍历

获取信息

获取属性

获取文本

节点操作

add_class() 和 remove_class() ---- 添加class、移除class

attr、text 和 html

remove()----删除节点

伪类选择器

使用pyquery的更多相关文章

随机推荐

热门专题