网页解析 -- bs4 和 xpath 的简单使用

bs4

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库，它的使用方式相对于正则来说更加的简单方便

中文文档：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

Tag

name：每一个tag对象都有name属性，为标签的名字

Attributes：在HTML中，tag可能有多个属性，所以tag属性的取值跟字典相同

get_text()：通过get_text()方法可以获取某个tag下所有的文本内容

find_all()

通过name搜索，find_all('a')可以直接查找出整个文档树中所有的a标签，并返回列表

通过属性搜索，通过传递给attrs一个字典参数来搜索属性:soup.find_all(attrs={'class': 'sister'})

通过文本搜索，soup.find_all(text="Lacie")

通过正则表达式来筛选，将re.compile编译的对象传入find_all()方法，tags = soup.find_all(re.compile("^b"))

CSS选择器

使用select()，在其中传入字符串参数，就可以使用CSS选择器的语法来找到tag

xpath

相比于BeautifulSoup，Xpath在提取数据时会更有效率

from lxml import etree

表达式

nodename 　　选取当前节点的所有nodename子节点

/ 　　　　　　根路径

// 　　　　　从整个文档当中搜索，不考虑位置

. 　　　　　　当前节点

.. 　　　　　当前节点的父节点

@ 　　　　　选取属性

路径表达式

//bookstore/book[1] 　　　　　　　　选取属于bookstore子元素的第一个 book元素

//bookstore/book[last()] 　　　　　　　选取属于bookstore子元素的最后一个book元素

//bookstore/book[|ast()-1] 　　　　　　选取属于bookstore子元素的倒数第二个 book元素

//bookstore/book[position0)<3] 　　　选取最前面的两个属于bookstore元素的子元素的book元素

//title[@lang] 　　　　　　　　　　　选取所有拥有名为lang的属性的title 元素

//title[@lang='eng'] 　　　　　　　　　选取所有title 元素，且这些元素拥有值为eng的lang属性

//bookstore/book[price>35.00] 　　　　选取bookstore元素的所有book元素，且其中的price元素的值须大于35.00

//bookstore/book[price> 35.00]/title 　　选取bookstore元素中的book元素的所有title元素，且其中的price元素的值须大于35.00

选取未知节点

* 　　　　匹配任何元素节点　　　　//bookstore/* 　　　　选取bookstore元素的所有子元素

@* 　　　匹配任何属性节点　　　　//* 　　　　　　　　选取文档中的所有元素

node()　　匹配任何类型的节点　　 //title[@*] 　　　　　选取所有带有属性的title元素

选取多个路径

//book/title| //book/price 　　　　　　选取book元素的所有title和price元素

//title | //price 　　　　　　　　　　　选取文档中所有的title和price元素

//bookstore/book/title| //price 　　　　选取bookstore元素的book元素的所有title元素,以及文档中所有的price元素

获取文本

用text()获取某个节点下的文本　　　　　//a/text()

用string()获取某个节点下所有的文本　　string(//book[1])

其它

contains() 　　　　包含于　　　　//div[contains(@id,'note')]

strats-with（）　　以什么开头

多个属性组合　　　　　　　　　 //input(@id='ffff' and @name ='username')

将Element显示为字符

网页解析 -- bs4 和 xpath 的简单使用的更多相关文章

爬虫——网页解析利器--re & xpath
正则解析模块re re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) 方法二创建正则编译对象 pattern = re.compile('正则表达式 ...
网页解析：Xpath 与 BeautifulSoup
1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1) ...
关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup
http://www.cnblogs.com/binye-typing/p/6656595.html 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
网页解析库-Xpath语法
网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言, ...
【XPath Helper：chrome爬虫网页解析工具 Chrome插件】XPath Helper：chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插件网
[XPath Helper:chrome爬虫网页解析工具 Chrome插件]XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插 ...
Android Studio下的简单网页解析
Android Studio下的简单网页解析一.导入数据导入前添加依赖 implementation 'org.jsoup:jsoup:1.11.3' 使用字符串导入 String html = ...
Python网页解析
续上篇文章,网页抓取到手之后就是解析网页了. 在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库.它主要的特点就是容错性很好 ...

随机推荐

IaC云资源编排-Terraform
Terraform 2019/10/14 Chenxin 整理转自: https://cloud.tencent.com/developer/article/1469162 IaC与资源编排 IaC ...
PyCharm设置完自动上传，却不会自动上传任何内容
Upload changed files automatically to the default server 选择了 Always 下面有一个提示 Default server or group ...
201871010126 王亚涛《面向对象程序设计 (Java)》第十六周学习总结
内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p/12 ...
二叉搜索树中第K小的元素
给定一个二叉搜索树,编写一个函数 kthSmallest 来查找其中第 k 个最小的元素. 说明:你可以假设 k 总是有效的,1 ≤ k ≤ 二叉搜索树元素个数. 示例 1: 输入: root = [ ...
2019年最新50道java基础部分面试题（四）
前35题请移步上几篇文章 36.数组有没有length()这个方法? String有没有length()这个方法? 数组没有length()这个方法,有length的属性.String有有lengt ...
小程序-小菊花loading
界面----交互 wx.showLoading() 显示loading提示框.需主动调用wx.hideLoading()才能关闭提示框参数: 属性类型默认值必填说明 title string ...
用OC基于数组实现循环队列
一.简言使用数组实现循环队列时,始终会有一个空余的位置预留着,作为一个判决队列已满的条件(当然也可以采用其他方式).在前面已经用C++介绍了基本的算法,可以去回顾一下https://www.cnbl ...
曾Python培训讲师-2年Python开发无包装简历-20191217-可公开
目录个人介绍技能介绍项目经历自我评价简历非完整版,需要完整版看下述信息,禁止任何一切私人用途.转发我生日是27号,那就27元一份,有需求的来购买!只会涨价不会降价,大概卖10份涨1元:曾P ...
栈与后缀表达式C实现
#include<stdio.h> #include<stdlib.h> typedef char datatype; typedef struct stack { int t ...
解决上一篇bean.xml中<bean>标签报错“ Error while downloading 'http://www.springframework.org/schema/beans/spring-beans.xsd........”
在xml文件中,头部报错如题一开始查询,说是头部少了“<?xml version="1.0" encoding="UTF-8"?>”,但是我并没有 ...

网页解析 -- bs4 和 xpath 的简单使用

网页解析 -- bs4 和 xpath 的简单使用的更多相关文章

随机推荐

热门专题