pyquery

初始化

字符串初始化

from pyquery import PyQuery as pq

doc = pq(html)#html为需要处理的内容

#方法与CSS选择器相同

print(doc('li'))

URL初始化

from pyquery import PyQuery as pd

doc = pq(url='http://www/baidu.com')

print(doc('head'))

文件初始化

doc = pq(filename='demo.html')

基本CSS选择器

id# class. tag none

查找元素

子元素

items = doc('.list')

#查找所有符合条件的内层元素

lis = items.find('li')

#查找直接子元素

lis = items.children()

#查找子元素的class为某项

lis = items.children('.active')

父元素

items.parent()

items.parents()

parents('.wrap')

兄弟元素

li = doc('.list .item-0.active') #同时包括item-0和active两个class

li.siblings()

li.siblings('.active')

遍历

单个元素

lis = doc('li').items

for li in lis:

    do sth.

获取信息

获取属性

a.attr('href')

a.attr.href

获取文本

a.text()

获取HTML

li.html()

DOM操作

addClass, removeClass

li.removeClass('active')

li.addClass('active')

attr. css

#改变或添加属性

li.attr('name','link')

li.css('font-size', '14px')

remove

wrap = doc('.wrap')

wrap.find('p').remove()

伪类选择器

li = doc('li:first-child')

li = doc('li:last_child')

li = doc('li:nth-child(2))

li = doc('li:gt(2)')#2之后的元素

li = doc('li:nth-child(2n)')

li = doc('li:contains(second)')#根据文本选择

爬虫4之pyquery的更多相关文章

【Python爬虫】安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
windows 64位操作系统下,用 Python 抓取网页,并用 pyQuery 解析网页 pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方 ...
芝麻HTTP： Python爬虫利器之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
爬虫6：pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择一. 初始化 1. 字符串初始化 h ...
Python爬虫常用之PyQuery
PyQuery是解析页面常用的库.是python对jquery的封装.下面是一份解析基本页面的代码.后期用到复杂或者实用的方式再增加. from pyquery import PyQuery as p ...
PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用初始化字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
【Python实战】机型自动化标注（搜狗爬虫实现）
1. 引言从安卓手机收集上来的机型大都为这样: mi|5 mi|4c mi 4c 2014022 kiw-al10 nem-tl00h 收集的机型大都杂乱无章,不便于做统计分析.因此,标注显得尤为重 ...
PyQuery爬取历史天气信息
1.准备工作: 网址:https://lishi.tianqi.com/xian/index.html 爬虫类库:PyQuery,requests 2.网页分析: 红线部分可更改为需要爬取的城市名,如 ...
Github上的python开源项目
Python开源项目,期待大家和我们一起共同维护 github排名榜单 https://github.com/trending github搜索榜单:https://github.com/search ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...

随机推荐

封装ORM.py与mysql_client.py代码
ORM.py ''' ORM: 对象关系映射 ---> 映射到数据库MySQL中的数据表类名 ---> 表名对象 ---> 一条记录对象.属性 ---> 字段模拟Dja ...
MFC界面库BCGControlBar v30.1——Grid/Report控件
亲爱的BCGSoft用户,我们非常高兴地宣布BCGControlBar Professional for MFC和BCGSuite for MFC v30.1正式发布!此版本包含themed find ...
Jquery+json绑定带层次下拉框（select控件）
一.实现的效果图备注: 1.主要实现添加类别绑定到Ztree树之后,select下拉框在不刷新页面的情况下,通过Jquery重新绑定问题,增加用户体验度: 2.这个只是实现两层的绑定,通过sql语句 ...
字符串类QString
采用Unicode编码,所以一个QChar占用两个字节使用隐式共享技术来节省内存和减少不必要的数据拷贝跨平台使用,不用考虑字符串的平台兼容性QString直接支持字符串和数字之间的相互转换QStrin ...
element-ui 弹出添加拖拽功能
1.新建dialog.js文件2.在main.js 中引入dialog.js import ‘./utils/dialog.js’3. 使用:<el-dialog v-dialogDrag&g ...
表空间及段区块的一些sql语句和视图
查询段情况的语句 select segment_name,blocks,extents,bytes,segment_type,tablespace_namefrom dba_segments wher ...
python起步--windows系统下安装python解释器和PyCharm
参考教程: 1)https://www.runoob.com/w3cnote/pycharm-windows-install.html 2)https://blog.csdn.net/c_shell_ ...
Android_(游戏)打飞机01：前言
(游戏)打飞机01:前言传送门 (游戏)打飞机02:游戏背景滚动传送门 (游戏)打飞机03:控制玩家飞机传送门 (游戏)打飞机04:绘画敌机.添加子弹传送门 (游戏)打飞机05:处理子弹, ...
TCP定时器之保活定时器
在用户进程启用了保活定时器的情况下,如果连接超过空闲时间没有数据交互,则保活定时器超时,向对端发送保活探测包,若(1)收到回复则说明对端工作正常,重置定时器等下下次达到空闲时间:(2) 收到其他回复, ...
套接字之close系统调用
close系统调用用于关闭文件描述符,其系统调用实现如下所示: / * Careful here! We test whether the file pointer is NULL before * ...

爬虫4之pyquery

pyquery

初始化

字符串初始化

URL初始化

文件初始化

基本CSS选择器

查找元素

子元素

父元素

兄弟元素

遍历

单个元素

获取信息

获取属性

获取文本

获取HTML

DOM操作

addClass, removeClass

attr. css

remove

伪类选择器

爬虫4之pyquery的更多相关文章

随机推荐

热门专题