1.了解

pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好。

2.安装

pip install pyquery

 

3引用

from pyquery import PyQuery as pq

4.初始化

1)字符串

html = """
<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
""" doc = pq(html)

2)url

response = pq(url='https://www.baidu.com')
print(response("head"))

3)文件

#filename参数为html文件路径
test_html = pq(filename = 'test.html')
print(type(test_html))
print(test_html)

5.使用

#-*- coding: UTF-8 -*-
from pyquery import PyQuery as pq html = """
<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
""" doc = pq(html)
#常用的css选择器
print(doc)
#打印id为container的标签
print(doc('#container'))
#打印class为object-1的标签
print(doc('.object-1'))
#打印body
print(doc('body'))
#多种css选择器使用
print(doc('html #container'))
#打印.list的li
print(doc('#container .list li'))
print('-----------------------------------') #伪类选择器
#打印第二个孩子
print(doc('li:nth-child(2)'))
#打印第一个孩子
print(doc('li:first-child'))
#打印最后一个孩子
print(doc('li:last-child'))
#打印含Python的li
print(doc("li:contains('Python')"))
print('-----------------------------------') #查找
#查找id为container
print(doc.find('#container'))
#查找li
print(doc.find('li'))
#查找id为container的孩子
print(doc.find('#container').children())
#查找类为object-2的父亲
print(doc.find('.object-2').parent())
#查找类为object-2的兄弟姐妹
print(doc.find('.object-2').siblings())
print('-----------------------------------') #获取标签属性
#获取attr为class
print(doc.find('.object-2').attr('class'))
#标签内的文本
print(doc.find('.object-1').text())
#去掉li标签
print(doc.find('#container').remove('li').text())
print('----------------------------------')

输出如下:

<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li> <body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body> <ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> -----------------------------------
<li class="object-2">amazing</li> <li class="object-1">Python</li> <li class="object-3">wonderful</li> <li class="object-1">Python</li> -----------------------------------
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li> <li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li> <ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li>
<li class="object-3">wonderful</li> -----------------------------------
object-2
Python ----------------------------------

参考:https://www.jianshu.com/p/5def029dbdf8

https://www.jianshu.com/p/770c0cdef481

python系列之(2)PyQuery的用法的更多相关文章

  1. 芝麻HTTP: Python爬虫利器之PyQuery的用法

    前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...

  2. Python爬虫利器六之PyQuery的用法

    前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...

  3. Python逆向爬虫之pyquery,非常详细

    系列目录 Python逆向爬虫之pyquery pyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和h ...

  4. python解析HTML之:PyQuery库的介绍与使用

    本篇大部分转载于https://www.jianshu.com/p/c07f7cd1b548 先放自已自己解析techweb一个网站图片的代码 from pyquery import PyQuery ...

  5. 总结整理 -- python系列

    python系列 python--基础学习(一)开发环境搭建,体验HelloWorld python--基础学习(二)判断 .循环.定义函数.继承.调用 python--基础学习(三)字符串单引号.双 ...

  6. 初探接口测试框架--python系列7

    点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...

  7. 初探接口测试框架--python系列2

    点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...

  8. 初探接口测试框架--python系列3

    点击标题下「微信」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期 ...

  9. 初探接口测试框架--python系列4

    点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...

  10. 初探接口测试框架--python系列5

    点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...

随机推荐

  1. 使用truss、strace或ltrace诊断软件问题-转

    http://blog.itpub.net/35489/viewspace-84293 进程无法启动,软件运行速度突然变慢,程序的"Segment Fault"等等都是让每个Uni ...

  2. JavaScript对象继承方式

    一.对象冒充 其原理如下:构造函数使用 this 关键字给所有属性和方法赋值(即采用类声明的构造函数方式).因为构造函数只是一个函数,所以可使 Parent 构造函数 成为 Children 的方法, ...

  3. 在Linux中常用的启动引导工具:grub和lilo

    在Linux和WINDOWS两系统并存时就需要安装GRUB(Grand Unified Bootloader),GRUB被广泛地用于替代lilo,GRUB支持在启动时使用命令行模式,支持md5加密保护 ...

  4. Leetcode459.Repeated Substring Pattern重复的子字符串

    给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成.给定的字符串只含有小写英文字母,并且长度不超过10000. 示例 1: 输入: "abab" 输出: True 解释 ...

  5. SpringMVC注解开发方式

    环境准备 springmvc版本:spring3.2 需要spring3.2所有jar(一定包括spring-webmvc-3.2.0.RELEASE.jar 工程结构 配置前端控制器(web.xml ...

  6. java中error和exception的区别

    转自:https://www.jianshu.com/p/e8bbee3c1c4a Error类和Exception类的父类都是throwable类,他们的区别是: Error类一般是指与虚拟机相关的 ...

  7. K8s 学习者绝对不能错过的最全知识图谱(内含 56个知识点链接)

    导读:Kubernetes 作为云原生时代的“操作系统”,熟悉和使用它是每名用户的必备技能.本篇文章概述了容器服务 Kubernetes 的知识图谱,部分内容参考了网上的知识图谱,旨在帮助用户更好的了 ...

  8. ubuntn系统下将文件拷贝到优盘中及挂载概念理解

    参考资料:http://jingyan.baidu.com/article/7082dc1c76f178e40a89bdd3.html: http://bbs.csdn.net/topics/3801 ...

  9. Django项目:CRM(客户关系管理系统)--48--39PerfectCRM实现登录+验证码+过期时间+页面保留账号

    # gbacc_urls.py # ————————38PerfectCRM实现全局账号登录注销———————— from django.conf.urls import url from gbacc ...

  10. 移动端 Iphone拍照变横问题的解决

    在移动端的页面需要做用户拍照上传的功能时会有用,苹果即使竖着拍照,上传到网页后它也会变成横的,好像IOS得一个BUG,安卓就没有这个问题. 要解决这个问题需要引入exif.js这个库,网上随便搜一下就 ...