pyquery 学习

　　pyquery 是python仿照jQuery的严格实现,语法与jQuery几乎完全相同,所以对于学过前端的朋友们可以立马上手,没学过的小朋友也别灰心,我们马上就能了解到pyquery的强大.

1 安装

  pip install pyquery

2 官方文档

http://pyquery.readthedocs.io/

3 学习代码html代码

  html = '''

  <div>

      <ul>

           <li class="item-0">first item</li>

           <li class="item-1"><a href="link2.html">second item</a></li>

           <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

           <li class="item-1 active"><a href="link4.html">fourth item</a></li>

           <li class="item-0"><a href="link5.html">fifth item</a></li>

       </ul>

   </div>

  '''

4 字符串初始化

html = '''

<div>

    <ul>

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

# 格式化html文本,获取'$对象

doc=pq(html) # doc ---> '$'

#获取html文本下所有的li标签

print(doc('li'))

结果

5 URL初始化

from pyquery import PyQuery as pq

#直接获取网页源码

doc=pq(url='https://www.baidu.com')

title=doc(':submit').attr.value

print(title)

结果

6 文件初始化

from pyquery import PyQuery as pq

#读取文件

doc = pq(filename='demo.html')

print(doc('li'))

结果

7 基于css选择器

html = '''

<div id="container">

    <ul class="list">

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

#找id=container标签下 所有class=list标签下的 所有的li标签

print(doc('#container .list li'))

结果

8 查找元素

子元素(不找孙子)

(链式寻找,doc($)找到的标签对象可以继续查找)

html = '''

<div id="container">

    <ul class="list">

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

#先获取所有的class=list 标签

items = doc('.list')

#再获取所有的li标签

lis=items('li')

print(lis)

结果

#获取当前标签的所有子标签

lis=items.children()

print(type(lis))

print(lis)

结果

父元素(不找爷爷)

html = '''

<html>

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

</html>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc('.list')

#获取当前标签的父级别标签(不取爷爷标签)

container = items.parent()

print(type(container))

print(container)

结果

9 遍历

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

#寻找class=items-0并且class=active的标签

li = doc('.item-0.active')

print(li)

结果

10 获取文本

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">我们一起high high</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

#定位到 a标签

a = doc('.item-0.active a')

print(a)

#输出文本使用.text()

print(a.text())

结果

11 获取HTML

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

#获取对应 标签下的 html数据

print(li.html())

结果

12 DOM操作

addClass、removeClass

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

#给选定标签删除 class='active'

li.removeClass('active')

print(li)

#给选定标签添加 class='active'

li.addClass('active')

print(li)

结果

attr、css

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.item-0.active')

print(li)

#添加属性 name=link

li.attr('name', 'link')

print(li)

#添加css font-size=14px

li.css('font-size', '14px')

print(li)

结果

remove

html = '''

<div class="wrap">

Hello, World

<p>This is a paragraph.</p>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

wrap = doc('.wrap')

print(wrap.text())

#find 找到指定标签,remove 移除

wrap.find('p').remove()

print(wrap.text())

结果

其他DOM方法

http://pyquery.readthedocs.io/en/latest/api.html

13 伪类选择器

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

             <li class="item-0">first item</li>

             <li class="item-1"><a href="link2.html">second item</a></li>

             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

             <li class="item-1 active"><a href="link4.html">fourth item</a></li>

             <li class="item-0"><a href="link5.html">fifth item</a></li>

         </ul>

     </div>

 </div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

# 获取第一个li 标签

li = doc('li:first-child')

print(li)

#获取最后一个li 标签

li = doc('li:last-child')

print(li)

#获取第2个li 标签

li = doc('li:nth-child(2)')

print(li)

#获取索引>2 的li 标签

li = doc('li:gt(2)')

print(li)

#获取偶数 的li标签

li = doc('li:nth-child(2n)')

print(li)

#获取文本包含second的 li标签

li = doc('li:contains(second)')

print(li)

结果

更多CSS选择器可以查看 http://www.w3school.com.cn/css/index.asp

pyquery 学习的更多相关文章

python爬虫之pyquery学习
相关内容: pyquery的介绍 pyquery的使用安装模块导入模块解析对象初始化 css选择器在选定元素之后的元素再选取元素的文本.属性等内容的获取 pyquery执行DOM操作.css ...
pyquery学习笔记
很早就听说了pyquery的强大.写了个简单的测试程序实验下. 思路是找个动态网页,先用PhantomJS加载,然后用PYQUERY解析. 1.随便找了个带表格的股票网页,里面有大量的股票数据,测试的 ...
python之pyquery 学习
pyquery是jQuery的Python实现,可以用以解析HTML网页的内容.官网文档:http://pythonhosted.org/pyquery/ 下载:https://pypi.python ...
学习PyQuery库
学习PyQuery库好了,又是学习的时光啦,今天学习pyquery 来进行网页解析常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...
学习使用pyquery解析器爬小说
一.背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本.正好学习一 ...
爬虫学习笔记（六）PyQuery模块
PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了. Pyquer ...
python爬虫神器PyQuery的使用方法
你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些 ...
Pyquery API中文版
Pyquery的用法与jQuery相同,可以直接参考jQuery API学习.
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...

随机推荐

二十六、Hadoop学习笔记————Hadoop Yarn的简介复习
1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 之前有提到过,Yarn主要是为了减轻Hadoop ...
SSM-SpringMVC-12：SpringMVC中BeanNameViewResolver这种视图解析器
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 视图解析器,这个很熟悉啊,之间就用过,就是可以简写/和.jsp的InternalResourceViewRes ...
Composer基本安装步骤
Composer是 PHP 世界里用于管理项目依赖的工具. 1,确保安装PHP,检查方法命令行窗口执行php -v,查看是否正常输出版本 php -v 2,下载安装脚本composer-setup.p ...
在线OJ使用总结(acm)
赛码网OJ规则用readLine()代替read_line() 用readLine()代替read_line() 用readLine()代替read_line() 用readLine()代替read ...
JVM学习记录-垃圾收集器
先回顾一下上一篇介绍的JVM中常见几种垃圾收集算法: 标记-清除算法(Mark-Sweep). 复制算法(Copying). 标记整理算法(Mark-Compact). 分代收集算法(Generati ...
inner join 与 left join 之间的区别
关于inner join 与 left join 之间的区别,以前以为自己搞懂了,今天从前端取参数的时候发现不是预想中的结果,才知道问题出在inner join 上了. 需求是从数据库查数据,在前端以 ...
【Richard 的刷（水）题记录】
大概想了想,还是有个记录比较好. 9/24 网络流一日游: 最大流:bzoj1711[Usaco2007 Open]Dining 拆点 BZOJ 3993 Sdoi2015 星际战争二分 P.S.这 ...
bootstrap 选项卡的使用
1.页面中的tab 在做项目的时候用到了切换选项卡显示不同图表页面的需求,如下图就直接使用了bootstrapd的选项卡学习源头: http://www.runoob.com/bootstrap ...
GIT的使用流程
GIT的使用流程 1 github注册流程 1 进入github官网:https://github.com/ 2 注册一个自己的github账号 3 右上角选择New repository 4 进入c ...
java可用与串口通信的一些库
java原生对串口的支持只有javax.comm,javax.comm比较老了,而且不支持64位系统,我在看jlibmodbus(一个java实现的modbus协议栈)的时候发现了几个可供使用的jav ...

pyquery 学习

1 安装

2 官方文档

3 学习代码html代码

4 字符串初始化

5 URL初始化

6 文件初始化

7 基于css选择器

8 查找元素

子元素(不找孙子)

父元素(不找爷爷)

9 遍历

10 获取文本

11 获取HTML

12 DOM操作

addClass、removeClass

attr、css

remove

其他DOM方法

13 伪类选择器

pyquery 学习的更多相关文章

随机推荐

热门专题