知识点一：PyQuery库详解及其基本使用

初始化

字符串初始化

html = '''

<div>

    <ul>

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a><>/li

        <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

print(doc('li'))#选择器实际上就是CSS选择器，即：选id就加“#”，选class前面加“.”

<li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

        </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

获得的结果

URL初始化

from pyquery import PyQuery as pq

doc1 = pq(url = "http://www.baidu.com")

print(doc1("head"))

<head><meta http-equiv="content-type" content="text/html;charset=utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=Edge"/><meta content="always" name="referrer"/><link rel="stylesheet" type="text/css" href="http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css"/><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head>

获得的结果

文件初始化

from pyquery import PyQuery as pq

doc2 = pq(filename = "demo.html")#自己下载一个HTML文件

print(doc2('li'))

基本CSS选择器

实例

tml = '''

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a><>/li

        <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

print(doc("#container .list li"))#注意空格，空格代表嵌套关系

<li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

        </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

获得的结果

查询元素

子元素

html = '''

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a><>/li

        <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc(".list")#首先选中url标签

print(type(items))

print(items)

lis = items.find('li')#实际上也是一个CSS选择器，将里面所有的li标签都打印出来；只要在它里面的标签都可以找到

print(type(lis))

print(lis)

#查找直接子元素

lis2 = items.children()

print(type(lis2))

print(lis2)

lis3 = items.children('.active')

print(lis3)

<class 'pyquery.pyquery.PyQuery'>

<ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

        </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

<class 'pyquery.pyquery.PyQuery'>

<li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

        </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

<class 'pyquery.pyquery.PyQuery'>

<li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

        </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

获得的结果

父元素

#父元素

html = '''

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc(".list")#首先选中url标签

#每个标签外面肯定只能套一个父元素

container = items.parent()

print(type(container))

print(container)

<class 'pyquery.pyquery.PyQuery'>

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

获得的结果

另一种方法：

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a><>/li

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc(".list")#首先选中url标签

#将所有祖先节点返回

parents = items.parents()

print(parents)

print(type(parents))#打印出两个div

另一种方法

<html><body><div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

</body></html><body><div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

</body><div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

<div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

<class 'pyquery.pyquery.PyQuery'>

--->获得的结果

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a><>/li

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

items = doc(".list")#首先选中url标签

#在其中进行搜索

parents1 = items.parents(".wrap")

print(parents1)#通过筛选，只剩下一个div

获取单一内容

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

--->获得的结果

兄弟元素

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a><>/li

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.list .item-0.active')#首先选class=“.list”，空格即使选择list里面的标签，再选class=“item-0”，并列active（实际就是一个整体）

print(li)

print(li.siblings())#获取所有的兄弟元素

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li

            </li><li class="item-0">first item</li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

获得的结果

另一种方式：

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a><>/li

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.list .item-0.active')#首先选class=“.list”，空格即使选择list里面的标签，再选class=“item-0”，并列active（实际就是一个整体）

#在向其中筛选

print(li.siblings('.active'))

另一种方式

<li class="item-1 active"><a href="link4.html">fourth item</a></li>

--->获得的结果

遍历

单个元素

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc(".item-0.active")

print(li)

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

获得的方法

另一种方式

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

lis = doc('li').items()#多个元素，进行遍历，生成一个产生器

print(type(lis))

for li in lis:

    print(li)

另一种方式

<class 'generator'>

<li class="item-0">first item</li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-1 active"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

--->获得的结果

获取信息

获取属性

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

a = doc(".item-0.active a")#选择class同时为item-0和active，在选择class里面的啊标签，中间注意空格

print(a)

print(a.attr("href"))

print(a.attr.href)#结果同上

<a href="link3.html"><span class="boid">third item</span></a>

link3.html

link3.html

获得的结果

获取文本

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

a = doc(".item-0.active a")

print(a)

print(a.text())#将上面的选中的class中包围的文字

<a href="link3.html"><span class="boid">third item</span></a>

third item

获得的结果

获取HTML

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

a = doc(".item-0.active")

print(a)

print(a.html())

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

<a href="link3.html"><span class="boid">third item</span></a>

获得的结果

DOM操作

address,removeClass

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc(".item-0.active")

print(li)

li.removeClass("active")#移除active

print(li)

li.addClass("active")#增加active

print(li)

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-0"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

获得的结果

attr,css

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc(".item-0.active")

print(li)

li.attr("name","link")#若存在，就会覆盖

print(li)

li.css("font-size","14px")#增加style属性

print(li)

<li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-0 active" name="link"><a href="link3.html"><span class="boid">third item</span></a></li>

<li class="item-0 active" name="link" style="font-size: 14px"><a href="link3.html"><span class="boid">third item</span></a></li>

获得的结果

remove

html1 = '''

<div class="wrap">

    Hello,World

    <p>This is a paragraph.</p>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html1)

wrap = doc(".wrap")

print(wrap.text())

wrap.find('p').remove()

print(wrap.text())

Hello,World

This is a paragraph.

Hello,World

获得的结果

其他DOM操作

其他DOM方法： http://pythonhosted.org/pyquery/

伪类选择器

html = '''

<div class="wrap">

    <div id="container">

        <ul class="list">

            <li class="item-0">first item</li>

            <li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-0 active"><a href="link3.html"><span class="boid">third item</span></a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

        </ul>

    </div>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

li = doc("li:first-child")#第一个

print(li)            

li1 = doc('li:last-child')#最后一个

print(li1)        

li2 = doc('li:nth-child(2)')#指定缩写顺序，第二个

print(li2)

li3 = doc("li:gt(2)")#大于2的（从0开始）

print(li3)

li4 = doc("li:nth-child(2n)")#偶数

print(li4)

li5 = doc("li:contains(second)")#内容包含second

print(li5)

<li class="item-0">first item</li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-1 active"><a href="link4.html">fourth item</a></li>

            <li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

            <li class="item-1 active"><a href="link4.html">fourth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

获得的结果

更多CSS选择器可以查看：http://www.w3school.com.cn/css/index.asp

官方文档

PYTHON 爬虫笔记六:PyQuery库基础用法的更多相关文章

PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
PYTHON 爬虫笔记五:BeautifulSoup库基础用法
知识点一:BeautifulSoup库详解及其基本使用方法什么是BeautifulSoup 灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便实现网页信息的提取库. ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
Python爬虫进阶六之多进程的用法
前言在上一节中介绍了thread多线程库.python中的多线程其实并不是真正的多线程,并不能做到充分利用多核CPU资源. 如果想要充分利用,在python中大部分情况需要使用多进程,那么这个包就叫 ...
python爬虫笔记----4.Selenium库（自动化库）
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
PYTHON 爬虫笔记二:Urllib库基本使用
知识点一:urllib的详解及基本使用方法一.基本介绍 urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的 ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
Python 爬虫十六式 - 第六式：JQuery的假兄弟-pyquery
PyQuery:一个类似jquery的python库学习一时爽,一直学习一直爽 Hello,大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了 BeautifulSoup 美味 ...

随机推荐

Android开发人员不得不收集的代码（转）
App相关→AppUtils.java 安装App installApp 卸载指定包名的App uninstallApp 获取当前App信息 getAppInfo 获取所有已安装App信息 getAl ...
MySQL数据库常用命令
1.MySQL常用命令 create database name;创建数据库 use databasename;选择数据库 drop database name 直接删除数据库,不提醒 show ta ...
node.js介绍及Win7环境安装测试(转）
官网描述: Node.js is a platform built on Chrome's JavaScript runtime for easily building fast, scalable ...
Nginx多域名多Server反向代理配置
Nginx强大的正则表达式支持,可以使server_name的配置变得很灵活,如果你要做多用户博客,那么每个用户拥有自己的二级域名也就很容易实现了.下面我就来说说server_name的使用吧:ser ...
通过PHP获取文件创建与修改时间
1.获取文件创建时间示例: 1 2 $ctime=filectime("chinawinxp.txt"); echo "创建时间:".date("Y- ...
JQuery如何获取按键的unicode编码？
$("selector").keyup(function(xxx){ var myEvent = xxx; var code = myEvent.keyCode; alert(co ...
Python 之安装模块的多种方法
1.自己写的模块,能够直接加入到路径下. 这样就能够直接调用. import sys sys.path.append("/home/username/") 2.单文件模块直接把文 ...
EasyDSS流媒体解决方案之多方式虚拟直播方法
EasyDSS_Solution虚拟直播 EasyDSS_Solution虚拟直播,是EasyDSS流媒体解决方案提供的虚拟直播方案.可以通过三种方式创建虚拟直播. (1)点播的视频文件: (2)本地 ...
log4j方法的使用
log4j.properties配置 log4j.logger.webAplLogger=info, logFile log4j.appender.logFile=org.apache.log4j.F ...
九度OJ 1164：旋转矩阵（矩阵运算）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:3188 解决:1245 题目描述: 任意输入两个9阶以下矩阵,要求判断第二个是否是第一个的旋转矩阵,如果是,输出旋转角度(0.90.180. ...

PYTHON 爬虫笔记六:PyQuery库基础用法

知识点一：PyQuery库详解及其基本使用

初始化

字符串初始化

URL初始化

文件初始化

基本CSS选择器

实例

查询元素

子元素

父元素

兄弟元素

遍历

单个元素

获取信息

获取属性

获取文本

获取HTML

DOM操作

address,removeClass

attr,css

remove

其他DOM操作

伪类选择器

官方文档

PYTHON 爬虫笔记六:PyQuery库基础用法的更多相关文章

随机推荐

热门专题