PyQuery用法详解

PyQuery是强大而又灵活的网页解析库，如果你觉得正则写起来太麻烦，如果你觉得BeautifulSoup语法太难记，如果你熟悉jQuery的语法

那么，PyQuery就是你绝佳的选择。

一、初始化方式，有三种，可以传入字符串，传入url，传入文件。

字符串初始化

html = '''

<div>

    <ul>

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)#声明pq对象

print(doc('li'))#用css选择器来实现，如果要选id前面加#，如果选class，前面加.，如果选标签名，什么也不加

URL初始化

也可以直接传入URL，进行URL初始化，程序会自动请求URL，获得html并返回要查找的字符串

from pyquery import PyQuery as pq

doc = pq(url='http://www.baidu.com')#程序会自动请求url

print(doc('head'))#返回head标签

文件初始化

from pyquery import PyQuery as pq

doc = pq(filename='D://demo.html')#直接传入文件名称及路径，程序会自动寻找并请求

print(doc('li'))

二、基本css选择器

html = '''

<div id="container">

    <ul class="list">

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

print(doc('#container .list li'))#会查找id为container class为list，标签为li的对象，只是层级关系，没有后者一定是前者的子对象

查找元素

html = '''

<div id="container">

    <ul class="list">

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

子元素

from pyquery import PyQuery as pq

doc = pq(html)

items = doc('.list')#拿到items

print(type(items))

print(items)

lis = items.find('li')#利用find方法，查找items里面的li标签，得到的lis也可以继续调用find方法往下查找，层层剥离

print(type(lis))

print(lis)

也可以用.children()查找直接子元素

lis = items.children()

print(type(lis))

print(lis)

lis = items.children('.active')

print(lis)

父元素

html = '''

<div id="container">

    <ul class="list">

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc('.list')

container = items.parent()#.parent()查找对象的父元素

print(type(container))

print(container)

祖先节点

parents = items.parents()#.parents（）祖先节点

parent = items.parents('.wrap')#当然也可以传入参数

print(parent)

兄弟元素

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.list .item-0.active')#空格表示里面，没有空格表示整体

print(li.siblings())#.siblings()兄弟元素，即同级别的元素，不包括自己

三、遍历

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

lis = doc('li').items()#.items会是一个生成器

print(type(lis))

for li in lis:

    print(li)

四、获取信息

获取属性

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

a = doc('.item-0.active a')

print(a)

print(a.attr('href'))#定义a标签的href属性用于指定超链接目标的URL。 如果用户选择了a标签中的内容，那么浏览器会尝试检索并显示href属性指定的URL所表示的文档，或者执行JavaScript表达式、方法和函数的列表。

print(a.attr.href)

结果：

<a href="link3.html"><span class="bold">third item</span></a>

link3.html

link3.html

获取文本

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

a = doc('.item-0.active a')

print(a)

print(a.text）#.text()获取文本信息

获取html

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

print(li.html())#.html（）获取所在html

五、DOM操作

addClass、removeClass

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

li.removeClass('active')#删除

print(li)

li.addClass('active')#增加

print(li)

attr、css

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

li.attr('name', 'link')#增加一个属性

print(li)

li.css('font-size', '14px')#增加一个css

print(li)

结果：

< li class ="item-0 active" > < a href="link3.html" > < span class ="bold" > third item < / span > < / a > < / li >

< li class ="item-0 active" name="link" > < a href="link3.html" > < span class ="bold" > third item < / span > < / a > < / li >

< li class ="item-0 active" name="link" style="font-size: 14px" > < a href="link3.html" > < span class ="bold" > third item < / span > < / a > < / li >

remove

html = '''

<div class="wrap">

    Hello, World

    <p>This is a paragraph.</p>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

wrap = doc('.wrap')

print(wrap.text())

wrap.find('p').remove()#找到p标签然后删除

print(wrap.text())

结果：

Hello, World This is a paragraph.

Hello, World

其他DOM方法

http://pyquery.readthedocs.io/en/latest/api.html

六、伪类选择器

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('li:first-child')

print(li)

li = doc('li:last-child')

print(li)

li = doc('li:nth-child(2)')

print(li)

li = doc('li:gt(2)')

print(li)

li = doc('li:nth-child(2n)')

print(li)

li = doc('li:contains(second)')

print(li)

结果：

< li class ="item-0" > first item < / li >

< li class ="item-0" > < a href="link5.html" > fifth item < / a > < / li >

< li class ="item-1" > < a href="link2.html" > second item < / a > < / li >

< li class ="item-1 active" > < a href="link4.html" > fourth item < / a > < / li >

< li class ="item-0" > < a href="link5.html" > fifth item < / a > < / li >

< li class ="item-1" > < a href="link2.html" > second item < / a > < / li >

< li class ="item-1 active" > < a href="link4.html" > fourth item < / a > < / li >

< li class ="item-1" > < a href="link2.html" > second item < / a > < / li >

更多CSS选择器可以查看 http://www.w3school.com.cn/css/index.asp

官方文档

http://pyquery.readthedocs.io/

PyQuery用法详解的更多相关文章

C#中string.format用法详解
C#中string.format用法详解本文实例总结了C#中string.format用法.分享给大家供大家参考.具体分析如下: String.Format 方法的几种定义: String.Form ...
@RequestMapping 用法详解之地址映射
@RequestMapping 用法详解之地址映射引言: 前段时间项目中用到了RESTful模式来开发程序,但是当用POST.PUT模式提交数据时,发现服务器端接受不到提交的数据(服务器端参数绑定没 ...
linux管道命令grep命令参数及用法详解---附使用案例|grep
功能说明:查找文件里符合条件的字符串. 语法:grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>] ...
mysql中event的用法详解
一.基本概念mysql5.1版本开始引进event概念.event既“时间触发器”,与triggers的事件触发不同,event类似与linux crontab计划任务,用于时间触发.通过单独或调用存 ...
CSS中伪类及伪元素用法详解
CSS中伪类及伪元素用法详解伪类的分类及作用: 注:该表引自W3School教程伪元素的分类及作用: 接下来让博主通过一些生动的实例(之前的作业或小作品)来说明几种常用伪类的用法和效果,其他的 ...
c++中vector的用法详解
c++中vector的用法详解 vector(向量): C++中的一种数据结构,确切的说是一个类.它相当于一个动态的数组,当程序员无法知道自己需要的数组的规模多大时,用其来解决问题可以达到最大节约空间 ...
AngularJS select中ngOptions用法详解
AngularJS select中ngOptions用法详解一.用法 ngOption针对不同类型的数据源有不同的用法,主要体现在数组和对象上. 数组: label for value in a ...
systemctl命令用法详解
systemctl命令用法详解系统环境:Fedora 16binpath:/bin/systemctlpackage:systemd-units systemctl enable httpd.serv ...
CSS3的@keyframes用法详解:
CSS3的@keyframes用法详解:此属性与animation属性是密切相关的,关于animation属性可以参阅CSS3的animation属性用法详解一章节. 一.基本知识:keyframes ...

随机推荐

常用css样式颜色值： 64位真彩和256位值
1. background-color: #eee; 2. background-color: #797979; 3. background-color: #007aff; 继续更新中
angularJS 指令解释
本文引自 http://blog.csdn.net/kongjiea/article/details/49840035 指令,很重要 AngularJS与jQuery最大的区别在哪里?我认为,表现在数 ...
react+redux+webpack+git技术栈
一.git bash here mdkr cnpm init -y ls -a ls -l ls -la隐藏的也可查看 cat package.json 二.npm npm i webpack-dev ...
Microsoft AI - Custom Vision in C#
概述前面一篇 Microsoft AI - Custom Vision 中,我们介绍了 Azure 认知服务中的自定义影像服务:Custom Vision,也介绍了如果通过这个在线服务,可视化的完成 ...
巧用linux版powershell，管理linux下的docker
大家好,我把用powershell的docker马甲命令的好处,放在了页面下方,从第五章开始. powershell 传教士原创文章始于 2017-09-07 允许转载,但必须保留名字和出处,否则 ...
web 表单提交按钮的测试点
web表单中的提交按钮的测试点: 在提交前需要理解清楚的点: 1.表单中哪些字段是必填项 2.表单中字段内容的限制:非空.重复.长度.特殊字符,空格.以及一些和业务相关的约束条件测试点: 1.是否支 ...
Alpha第四天
Alpha第四天听说 031502543 周龙荣(队长) 031502615 李家鹏 031502632 伍晨薇 031502637 张柽 031502639 郑秦 1.前言任务分配是VV.ZQ. ...
学号：201621123032 《Java程序设计》第7周学习总结
1:本周学习总结 1.1:思维导图:Java图形界面总结 2:书面作业 2.1: GUI中的事件处理 2.1.1: 写出事件处理模型中最重要的几个关键词事件:如鼠标单击,滑动,输入汉字等. 事件源: ...
201621123043 《Java程序设计》第2周学习总结
1.本周学习总结使用jdk文档查阅函数功能及代码用switch语句是在每个case中可能在第一行是sc.nextLine;来给回车赋值: 在使用循环的时候要注意循环返回的条件,否则陷入死循环可能会 ...
nyoj 寻找最大数（二）
寻找最大数(二) 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描述给你一个数字n(可能有前缀0). 要求从高位到低位,进行进栈出栈操作,是最后输出的结果最大. ...

PyQuery用法详解

PyQuery用法详解的更多相关文章

随机推荐

热门专题