pyquery解析库的介绍和使用

### pyquery的介绍和使用

## 测试文本

text = '''

<html><head><title>there is money</title></head>

<body>

<p class="title" name="dmr"><b>there is money</b>contents</p>

<p class="money">good good study, day day up

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

</p>

<p class='body'>...</p>

'''

1. pyquery对象初始化，html字符串，url，file皆可

## pyquery对象初始化，html字符串，url，file皆可

from pyquery import PyQuery as pq

import requests

# html字符串初始化

doc = pq(text)

print(doc('a'))

# url初始化

doc = pq(requests.get('https://www.baidu.com').text)

print(doc('title'))

# 读取文件内容初始化，编码格式为GBK，当有不可识别字符时会报错，可通过open指定编码格式为utf-8来解决

# doc = pq(filename='text')

# print(doc('li'))

2. 基本CSS选择器

## 基本CSS选择器

from pyquery import PyQuery as pq

doc = pq(text)

print(type(doc))

print(doc('.money a'))

print(doc('.money #l1'))

'''

输出内容：

<class 'pyquery.pyquery.PyQuery'>

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

'''

输出内容

3. 查找节点，返回一个PyQuery对象，当匹配到多个节点时，PyQuery对象值为多个节点的字符串整合

## 查找节点，返回一个PyQuery对象，当匹配到多个节点时，PyQuery对象值为多个节点的字符串整合

from pyquery import PyQuery as pq

doc = pq(text)

items = doc('p')

print(items)

print(type(items))

# 查找子节点

print(items.children('#l2'))

print('--------------------分隔符------------------')

# 查找父节点

print(items.parent())

print('--------------------分隔符------------------')

print(items.parents('html'))

print('--------------------分隔符------------------')

## 查找兄弟节点

print(items('#l2').siblings())

'''

输出内容：

<p class="title" name="dmr"><b>there is money</b></p>

<p class="money">good good study, day day up

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

</p>

<p class="body">...</p>

<class 'pyquery.pyquery.PyQuery'>

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and 

--------------------分隔符------------------

<body>

<p class="title" name="dmr"><b>there is money</b></p>

<p class="money">good good study, day day up

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

</p>

<p class="body">...</p>

</body>

--------------------分隔符------------------

<html><head><title>there is money</title></head>

<body>

<p class="title" name="dmr"><b>there is money</b></p>

<p class="money">good good study, day day up

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

</p>

<p class="body">...</p>

</body></html>

--------------------分隔符------------------

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

'''

输出内容

4. 遍历，通过PyQuery对象的items方法可以把匹配到多个节点的PyQuery对象构造成一个生成器

## 遍历，通过PyQuery对象的items方法可以把匹配到多个节点的PyQuery对象构造成一个生成器

from pyquery import PyQuery as pq

doc = pq(doc)

print(doc('a'))

items = doc('a').items()

print(type(items))

for i, item in enumerate(items):

    print(i, item, type(item))

'''

输出内容：

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

<class 'generator'>

0 <a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

 <class 'pyquery.pyquery.PyQuery'>

1 <a href="https://www.baidu.com/2" class="error" id="l2"><span>2</span></a> and

 <class 'pyquery.pyquery.PyQuery'>

2 <a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

 <class 'pyquery.pyquery.PyQuery'>

'''

输出内容

5. 获取属性和文本

## 获取属性和文本

from pyquery import PyQuery as pq

doc = pq(doc)

# 获取属性，当多个节点时，同上，用items方法构造生成器然后进行遍历输出

a = doc('.error.ed2')

print(a, type(a))

print(a.attr('href'))

print(a.attr.href)

'''

输出结果：

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and

 <class 'pyquery.pyquery.PyQuery'>

https://www.baidu.com/2

https://www.baidu.com/2

'''

## 获取文本

from pyquery import PyQuery as pq

doc = pq(text)

print(doc('a.error'))

# 第一个a节点文本内容为注释内容，所以不输出

print(doc('a.error').text())  # 只输出节点内的文本内容

print(doc('a.error').html())  # 输出节点内的内容，包含标签内容

items = doc('a.error').items()

for i, item in enumerate(items):

    print(i, type(item), item.text())

    print(i, type(item), item.html())

'''

输出内容：

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

 2 3

<span><!-- 1 --></span>

0 <class 'pyquery.pyquery.PyQuery'>

0 <class 'pyquery.pyquery.PyQuery'> <span><!-- 1 --></span>

1 <class 'pyquery.pyquery.PyQuery'> 2

1 <class 'pyquery.pyquery.PyQuery'> <span>2</span>

2 <class 'pyquery.pyquery.PyQuery'> 3

2 <class 'pyquery.pyquery.PyQuery'> 3

'''

6. 节点操作

## 节点操作

from pyquery import PyQuery as pq

doc = pq(text)

p = doc('.title')


# addClass和removeClass，增加或减少class属性值

p.add_class('admin')

print(p.attr.class_)

p.removeClass('title')

print(p.attr('class'))


# attr、text和html，修改属性、文本、HTML文本内容

print(p.attr.name)

print(p.text())

print(p.html())

p.attr('name', 'test')

print(p.attr.name)

p.text('change text')

print(p.text())

p.html('<span>change html</span>')

print(p.html())


# remove，移除节点

doc = pq(text)

p = doc('.title')

print(p.html())

p.remove('b')

print(p.html())

'''

输出内容：

title admin

admin

dmr

there is money

<b>there is money</b>

test

change text

<span>change html</span>

<b>there is money</b>contents

 contents

'''

输出内容

7. 伪类编辑器

# 伪类编辑器

from pyquery import PyQuery as pq

doc = pq(text)

# 第一个a节点

a = doc('a:first-child')

print(a)

# 最后一个a节点

a = doc('a:last-child')

print(a)

# 第二个a节点

a = doc('a:nth-child(2)')

print(a)

# 第0个节点之后的节点

a = doc('a:gt(0)')

print(a)

# 偶数位置的节点

a = doc('a:nth-child(2n)')

print(a)

# 文本内容包含3的节点

a = doc('a:contains("3")')

print(a)

'''

输出内容：

<a href="https://www.baidu.com/1" class="error" id="l1"><span><!-- 1 --></span></a>,

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and 

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

<a href="https://www.baidu.com/2" class="error ed2" id="l2"><span>2</span></a> and 

<a href="https://www.baidu.com/3" class="error" id="l3">3</a>;

66666666666

'''

pyquery解析库的介绍和使用的更多相关文章

【Python爬虫】PyQuery解析库
PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...
Python3 BeautifulSoup和Pyquery解析库随笔
BeautifuSoup和Pyquery解析库方法比较 1.对象初始化: BeautifySoup库: from bs4 import BeautifulSoup html = 'html strin ...
BeautifulSoup解析库的介绍和使用
### BeautifulSoup解析库的介绍和使用 ### 三大选择器:节点选择器,方法选择器,CSS选择器 ### 使用建议:方法选择器 > CSS选择器 > 节点选择器 ## 测试文 ...
第四节：Web爬虫之pyquery解析库
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
pyquery解析库
这一篇整理一下pyquery这个解析库.还是菜,若有错误的地方,欢迎大家随时指正.......(come on.......) pyquery:是一个css选择器,再使用时,也需要传入HTML文本来初 ...
Pyquery解析库的安装和使用
Pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便.GitHub:https://github.com/gawel/pyqu ...
xpath beautiful pyquery三种解析库
这两天看了一下python常用的三种解析库,写篇随笔,整理一下思路.太菜了,若有错误的地方,欢迎大家随时指正.......(conme on.......) 爬取网页数据一般会经过获取信息-> ...
Python爬虫3大解析库使用导航
1. Xpath解析库 2. BeautifulSoup解析库 3. PyQuery解析库
pyquery 的用法 --爬虫解析库
如果你对Web有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合你的解析库--pyquery. 接下来,我们就来感受一下pyquery的强大之处. 1. 准备工 ...

随机推荐

OO第四单元
OO第四单元总结第四单元架构设计第一次作业 uml类图这次作业我采取的基本思路就是根据指令来建造一个简易的类图,用于查询,其中umlclass中包含了umlAttraibute,umlOpera ...
Noip模拟69 2021.10.5
考场拼命$yy$高精度结果没学好$for$循环痛失$50pts$,当场枯死以后一定打对拍,要不考后会... T1 石子游戏首先要知道典型的$NIM$博弈,就是说如果所有堆石子个数的异或和为$0$则 ...
2021.9.25考试总结[NOIP模拟61]
终于有点阳间题了然而挂了60pts 哈哈 T1 交通类似简单题,限制看似很复杂,但不难发现当确定一条边是否被删后会产生裙带关系,很多边会跟着自动被确定是否被删. 仔细观察可以得出这种关系会构成偶环结 ...
Linux该如何学习新手入门遇到问题又该如何解决
本节旨在介绍对于初学者如何学习 Linux 的建议.如果你已经确定对 Linux 产生了兴趣,那么接下来我们介绍一下学习 Linux 的方法. 如何去学习学习大多类似庖丁解牛,对事物的认识一般都是由 ...
hdu 5179 beautiful number（构造，，，，）
题意: 一个如果称作是漂亮数,当且仅当满足: 每一位上的数字是[1,9],从高到时低数字大小降序,且有di%dj=0(i<j) 例:931 给一个区间[L,R],问这个区间里有多少个漂亮数. 1 ...
微服务（七）Gateway服务网关
1 为什么要有网关权限控制:网关作为微服务入口,需要校验用户是是否有请求资格,如果没有则进行拦截. 路由和负载均衡:一切请求都必须先经过gateway,但网关不处理业务,而是根据某种规则,把请求转发 ...
Spring Cloud Alibaba 使用Feign进行服务消费
为什么使用Feign? Feign可以把Rest的请求进行隐藏,伪装成类似SpringMVC的Controller一样.你不用再自己拼接url,拼接参数等等操作,一切都交给Feign去做. 使用Fei ...
SpringMVC配置版到注解版
什么是springmvc? 1.1.什么是MVC MVC是模型(Model).视图(View).控制器(Controller)的简写,是一种软件设计规范. 是将业务逻辑.数据.显示分离的方法来组织代码 ...
JMeter学习笔记--JDBC测试计划-连接Mysql
1.首先要下载jar包,mysql-connector-java-5.1.7-bin.jar 放到Jmeter的lib文件下ext下 2.添加JDBC Connection Configuration ...
Linux ns 4. UTS Namespace 详解
目录 1. 使用简介 1.1 hostname 1.2 domainname 1.3 uname 2. 代码分析 2.1 copy_utsname() 2.2 sethostname() 2.3 ge ...

pyquery解析库的介绍和使用

pyquery解析库的介绍和使用的更多相关文章

随机推荐

热门专题