PyQuery

目前最新的版本是1.3，基于最新版本进行介绍。

主要根据PyQuery的官方文档进行了更新。

from pyquery import PyQuery as pq

from lxml import etree

import urllib

doc=pq('<p id="hello" class="hello"></p>')#解析文档的基本方法

p=doc('p')#获取p标签

print(p.attr('id'))#获取p标签的id属性的值

p.attr('id','plop')#改变p标签的id属性的值为plop

print(p.attr('id'))

p.attr.id='snow'#使用python的方式改变id属性

print(p.attr.id)

p.attr['id']='ola'

print(p.attr['id'])

p.attr(id='hello',class_='hello2')

print(p)

hello

plop

snow

ola

<p id="hello" class="hello2"/>

CSS内容

p.add_class('toto')#增加class内容

# print(p)

p.toggle_class('titi toto')#切换class内容

# print(p)

p.remove_class('titi')#移除class

# print(p)

#添加style，以font-size为例

p.css.font_size='16px'

p.css['font-size']='16px'

p.css={'font-size':'17px'}

Manipulating

#向标签内容的尾部添加一些string

p.append(' check out <a href="http://www.baidu.com">百度一下</a>')

#pp()

#也可以向标签的头部添加

p.prepend('hello again! ')

#pp()

#或者使用这两个命令添加到其他文档或者标签的内容中

d=pq('<html><body><div id="test"><a href="http://python.org">python</a> !</div></body></html>')

p.prepend_to(d('#test'))#将p的内容添加到d的id为test的标签里面，占据最开始的位置

#print(d('#test').html())#打印出id为test的标签的内容

p.insert_after(d('#test'))#把p标签放在id为test的标签后面

#print(d('body').html())

p.insert_before(d('#test'))#把p标签插入到id为test的标签前面

#print(d('body').html())#可以看出来，p插入到了id为test的标签的前面

#移除一个元素

d=pq('<html><body><p id="id">Yeah!</p><p>python rocks !</p></div></html>')

d.remove('p#id')#移除了p标签的id属性

#print(d('body').html())

#将标签的内容移除

d('p').empty()

#print(d('p'))

#可以将两个PyQuery对象连接起来：

print(pq('<div>Yeah !</div>').add_class('myclass') + pq('<b>cool</b>'))

Traversing

d = pq('<p id="hello1" class="test1"><a>1</a></p><p id="hello2" class="test2"><a>2</a></p>')

#print(d('p').filter('.test1'))#按类选择，class名为test1的p标签。

#print(d('p').filter('#hello2'))#按id选择，id名为hello2的p标签

#print(d('p').eq(0))#第一个p标签

#print(d('p').eq(1))#第二个p标签

"""Return PyQuery of only the element with the provided index:

    >>> d = PyQuery('<p class="hello">Hi</p><p>Bye</p><div></div>')

    >>> d('p').eq(0)

    [<p.hello>]

    >>> d('p').eq(1)

    [<p>]

    >>> d('p').eq(2)

    []

"""

#查询嵌套的元素

#print(d('p').find('a'))

#print(d('p').eq(1).find('a'))

API

http://pythonhosted.org/pyquery/api.html

请参考官方文档的介绍。

Scraping

#PyQuery可以使用url载入html文档，默认使用python的urllib库

print(pq('http://www.baidu.com'))

#如果安装了request库，也可以使用并且可以使用requests的大多参数

pq('http://duckduckgo.com/', headers={'user-agent': 'pyquery'})

pq('https://duckduckgo.com/', {'q': 'foo'}, method='post', verify=True)

如果您觉得感兴趣的话，可以添加我的微信公众号：一步一步学Python

爬虫入门【5】PyQuery简介的更多相关文章

Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python 入门之Python简介
Python 入门之Python简介 1.Python简介: (1) Python的出生: python的创始人为吉多·范罗苏姆(Guido van Rossum)(中文名字:龟叔).1989年的 ...
Python基础及爬虫入门
**写在前面**我们在学习任何一门技术的时候,往往都会看很多技术博客,很多程序员也会写自己的技术博客.但是我想写的这些不是纯技术博客,我暂时也没有这个能力写出 Python 或者爬虫相关的技术博客来. ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
爬虫入门五 gooseeker
title: 爬虫入门五 gooseeker date: 2020-03-16 16:00:00 categories: python tags: crawler gooseeker是一个简单的爬虫软 ...
爬虫入门四 re
title: 爬虫入门四 re date: 2020-03-14 16:49:00 categories: python tags: crawler 正则表达式与re库 1 正则表达式简介编译原理学 ...
爬虫入门三 scrapy
title: 爬虫入门三 scrapy date: 2020-03-14 14:49:00 categories: python tags: crawler scrapy框架入门 1 scrapy简介 ...
爬虫入门二 beautifulsoup
title: 爬虫入门二 beautifulsoup date: 2020-03-12 14:43:00 categories: python tags: crawler 使用beautifulsou ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...

随机推荐

ambari修改admin密码
https://community.hortonworks.com/questions/449/how-to-reset-ambari-admin-password.html 1) Postgres ...
javascript 中event是全局变量
The only thing I can think of is that event is in fact window.event and it makes itself available wh ...
android-SQLite数据库MVC关联实例源码（三层架构）
前两天布置下了一个期末练习,其中的重点是两个表之间的SQLite关联操作. 拿到题目,首先需要建库和关联表,下面是代码. 我使用简单的表插入,将数据的提交卸载onCreate方法中,这样不会发生写在主 ...
node - 写返回mime类型
何为mime类型? mime.json { ".323":"text/h323" , ".3gp":"video/3gpp&qu ...
vuex简单示例
一.vuex是什么,解决了什么问题? 官方解释是:Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式.它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生 ...
Jeewx 捷微管家操作配置文档（开源版本号）
1.1.1. 公众帐号管理 (1)捷微是第三方微信公众帐号管理平台,使用本平台前,请自行注冊申请微信公众帐号,操作流程请參照百度经验[怎样注冊微信公众帐号]: http://jingyan.baid ...
UIView的endEditing:方法
当视图收到endEditing:消息时,如果视图(或者其下的人和子视图)是当前的第一响应对象,就会取消自己的第一响应对象状态, 而且虚拟键盘也会消失(传入的参数代表是否需要强制取消第一响应对象状态.有 ...
JQuery加载并解析XML
转自http://blog.csdn.net/pan_junbiao/article/details/7441003,致谢! 1.简述 XML(eXtensible Markup Language)即 ...
C# string[ ][ ] 与string[,]
1.string[][] 是一维数组,数组中的元素是string[],相当于锯齿数组例如:string[][] arrar = new string[][] { n ...
安装Reshaper后Intellisense失效
安装Reshaper后Intellisense失效或希望用vs2017的Intellisense功能安装完毕后,IDE 的智能提示(Intellisense)便会默认使用 Resharper 的提示 ...

爬虫入门【5】PyQuery简介

PyQuery

CSS内容

Manipulating

Traversing

API

Scraping

爬虫入门【5】PyQuery简介的更多相关文章

随机推荐

热门专题