pyquery

初始化

字符串初始化

from pyquery import PyQuery as pq

doc = pq(html)#html为需要处理的内容

#方法与CSS选择器相同

print(doc('li'))

URL初始化

from pyquery import PyQuery as pd

doc = pq(url='http://www/baidu.com')

print(doc('head'))

文件初始化

doc = pq(filename='demo.html')

基本CSS选择器

id# class. tag none

查找元素

子元素

items = doc('.list')

#查找所有符合条件的内层元素

lis = items.find('li')

#查找直接子元素

lis = items.children()

#查找子元素的class为某项

lis = items.children('.active')

父元素

items.parent()

items.parents()

parents('.wrap')

兄弟元素

li = doc('.list .item-0.active') #同时包括item-0和active两个class

li.siblings()

li.siblings('.active')

遍历

单个元素

lis = doc('li').items

for li in lis:

    do sth.

获取信息

获取属性

a.attr('href')

a.attr.href

获取文本

a.text()

获取HTML

li.html()

DOM操作

addClass, removeClass

li.removeClass('active')

li.addClass('active')

attr. css

#改变或添加属性

li.attr('name','link')

li.css('font-size', '14px')

remove

wrap = doc('.wrap')

wrap.find('p').remove()

伪类选择器

li = doc('li:first-child')

li = doc('li:last_child')

li = doc('li:nth-child(2))

li = doc('li:gt(2)')#2之后的元素

li = doc('li:nth-child(2n)')

li = doc('li:contains(second)')#根据文本选择

爬虫4之pyquery的更多相关文章

【Python爬虫】安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
windows 64位操作系统下,用 Python 抓取网页,并用 pyQuery 解析网页 pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方 ...
芝麻HTTP： Python爬虫利器之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
爬虫6：pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择一. 初始化 1. 字符串初始化 h ...
Python爬虫常用之PyQuery
PyQuery是解析页面常用的库.是python对jquery的封装.下面是一份解析基本页面的代码.后期用到复杂或者实用的方式再增加. from pyquery import PyQuery as p ...
PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用初始化字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
【Python实战】机型自动化标注（搜狗爬虫实现）
1. 引言从安卓手机收集上来的机型大都为这样: mi|5 mi|4c mi 4c 2014022 kiw-al10 nem-tl00h 收集的机型大都杂乱无章,不便于做统计分析.因此,标注显得尤为重 ...
PyQuery爬取历史天气信息
1.准备工作: 网址:https://lishi.tianqi.com/xian/index.html 爬虫类库:PyQuery,requests 2.网页分析: 红线部分可更改为需要爬取的城市名,如 ...
Github上的python开源项目
Python开源项目,期待大家和我们一起共同维护 github排名榜单 https://github.com/trending github搜索榜单:https://github.com/search ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...

随机推荐

前端杂谈: Attribute VS Property
前端杂谈: Attribute VS Property 第一个问题: 什么是 attribute & 什么是 property ? attribute 是我们在 html 代码中经常看到的键值 ...
centos 修改时区以及修正时间
1.查看系统当前的时区 [app@127-0-0-1 shine]$ timedatectl Local time: Wed 2019-10-23 17:56:17 CST Universal tim ...
OpenCV笔记（1）(图片读取与现实、色彩空间、基础运算、均值方差、逻辑运算、泛洪填充、均值中值及自定义平滑)
一.图片读取和显示 import cv2 as cv # 图片读取cv.imread(img_path) car_img = cv.imread("car1.png") # 图片显 ...
NURBS 曲线和曲面参数化
NURBS 曲线和曲面参数化什么是参数? 参数是曲线或曲面上点的唯一数值(类似于坐标).通过参数,可以沿曲线的长度方向引用特定点.参数值越大,点在曲线方向上的距离越远. 就像空间中的点具有三个维度( ...
docker和Dockerfile
目录: 1.docker为什么会出现? 2.docker的理念 3.容器化技术 4.docker三要素 5.docker安装 6.docker帮助命令 7.Docker阿里云镜像加速器配置. 8.do ...
php重写与重载
转载:https://blog.csdn.net/binghui1990/article/details/9105237 重写/覆盖 override 指:子类重写了父类的同名方法 (注:1.重写 ...
py脚本修改后自动重启
在用socket.io, pika之类启动一个脚本死循环做server或者client的时候: 1脚本被编辑之后,是不会自动重启 2当代码报错的时候,会立即退出, 只能手动重新运行 python ap ...
TTTTTTTTTTTTT CF Good Bye 2015 C- New Year and Domino(CF611C) 二维前缀
题目题意:给你一个n*m由.和#组成的矩阵,.代表可以放,#代表不可以,问在左上角(px,py)到(右下角qx,qy)这样的一个矩阵中,放下一个长度为2宽度为1的牌有多少种放法: #include ...
unittest详解（六）断言
我们在执行测试用例时,怎么来判断这条用例是否通过呢?唯一的办法就是拿实际结果和预期结果进行比较,如果一致用例就是通过的,否则用例就是失败的.在python中这种比较的方法就叫做断言,unittest框 ...
Spark译文(一)
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统. ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. ...

爬虫4之pyquery

pyquery

初始化

字符串初始化

URL初始化

文件初始化

基本CSS选择器

查找元素

子元素

父元素

兄弟元素

遍历

单个元素

获取信息

获取属性

获取文本

获取HTML

DOM操作

addClass, removeClass

attr. css

remove

伪类选择器

爬虫4之pyquery的更多相关文章

随机推荐

热门专题