Python Beautiful Soup 解析库的使用
Beautiful Soup
借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写。
Beautiful Soup是Python的一个HTML或XML的解析库。
1.解析器
| 解析器 | 使用方法 | 优势 | 劣势 |
| Python标准库 | BeautifulSoup(markup,"html.parser") | 执行速度适中、文档容错能力强 | 2.7.3和3.2.2之前的版本容错能力差 |
| lxml HTML解析器 | BeautifulSoup(markup,"lxml") | 速度快、文档容错能力强 | 需要安装C语言库 |
| lxml XML解析器 | BeautifulSoup(markup,"xml") | 速度快,唯一支持XML的解析器 | 需要安装C语言库 |
| html5lib | BeautifulSoup(markup,"html5lib") | 最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档 | 速度慢、不依赖外部扩展 |
综上所述,推荐lxml HTML解析器
|
1
2
3
|
from bs4 import BeautifulSoupsoup = BeautifulSoup('<p>Hello World</p>','lxml')print(soup.p.string) |
2.基本用法:
|
1
2
3
4
5
6
7
8
9
10
11
|
html = '''<html><head><title>Infi-chu example</title></head><body><p class="title" name="dr"><b>title example</b></p><p class="story">link<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,last sentence</p>''' |
|
1
2
3
4
|
from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml')print(soup.prettify()) # 修复htmlprint(soup.title.string) # 输出title节点的字符串内容 |
3.节点选择器:
选择元素
使用soup.元素的方式获取
提取信息
(1)获取名称
使用soup.元素.name获取元素名称
(2)获取属性
使用soup.元素.attrs
使用soup.元素.attrs['name']
(3)元素内容
使用soup.元素.string获取内容
嵌套选择
使用soup.父元素.元素.string获取内容
关联选择
(1)子节点和子孙节点
|
1
2
3
4
5
6
7
8
9
10
11
|
html = '''<html><head><title>Infi-chu example</title></head><body><p class="title" name="dr"><b>title example</b></p><p class="story">link<a href="http://example.com/elsie" class="sister" id="link1"><span>elsie</span></a>,<a href="http://example.com/lacie" class="sister" id="link2"><span>lacie</span></a>,<a href="http://example.com/tillie" class="sister" id="link3"><span>tillie</span></a>,last sentence</p>''' |
|
1
2
3
4
5
6
7
8
9
10
11
12
|
from bs4 import BeautifulSoup# 得到直接子节点,children属性soup = BeautifulSoup(html,'lxml')print(soup.p.children)for i ,child in enumerate(soup.p.children): print(i,child)# 得到所有的子孙节点,descendants属性soup = BeautifulSoup(html,'lxml')print(soup.p.descendants)for i,child in enmuerate(soup.p.descendants): print(i,child) |
(2)父节点和祖先节点
调用父节点,使用parent属性
获取所有祖先节点,使用parents属性
(3)兄弟节点
next_sibling 下一个兄弟元素
previous_sibling 上一个兄弟元素
next_siblings 所有前面兄弟节点
previous_siblings 所有后面兄弟节点
(4)提取信息
4.方法选择器:
find_all()
find_all(name,attrs,recursize,text,**kwargs)
(1)name
|
1
2
3
|
soup.find_all(name='ul')for ul in soup.find_all(name='ul'): print(ul.find_all(name='ul')) |
|
1
2
3
4
|
for ul in soup.find_all(name='ul'): print(ul.find_all(name='li')) for li in ul.find_all(name='li'): print(li.string) |
(2)attes
|
1
2
3
4
5
6
7
|
# 根据节点名查询print(soup.find_all(attrs={'id':'list1'}))print(soup.find_all(attrs={'name':'elements'}))# 也可以写成print(soup.find_all(id='list1'))print(soup.find_all(class='elements')) |
(3)text
text参数可以用来匹配节点的文本,传入的形式可以是字符串,可以是正则表达式对象
|
1
2
3
|
from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml')print(soup.find_all(text=re.compile('link'))) |
find()
返回一个元素
【注】
find_parents()和find_parent()
find_next_siblings()和find_next_sibling()
find_previous_siblings()和find_previous_sibling()
find_all_next()和find_next()
find_all_previous()和find_previous()
5.CSS选择器:
嵌套选择
|
1
2
|
for ul in soup.select('ul'): print(ul.select('li')) |
获取属性
|
1
2
3
4
|
for ul in soup.select('ul'): print(ul['id']) # 等价于 print(ul.attrs['id']) |
获取文本
获取文本除了string属性还有get_text()方法
|
1
2
3
4
|
for li in soup.select('li'): # 效果一样 print(li.get_text()) print(li.string) |
Python Beautiful Soup 解析库的使用的更多相关文章
- Python爬虫之Beautiful Soup解析库的使用(五)
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
- Beautiful Soup解析库的安装和使用
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式.官方文档:https://www.crummy.co ...
- 爬虫(五)—— 解析库(二)beautiful soup解析库
目录 解析库--beautiful soup 一.BeautifulSoup简介 二.安装模块 三.Beautiful Soup的基本使用 四.Beautiful Soup查找元素 1.查找文本.属性 ...
- (17)python Beautiful Soup 4.6
一.安装 1.登陆官网:https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径,运行 setup.py buil ...
- 爬虫5_python2_使用 Beautiful Soup 解析数据
使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HT ...
- 用Beautiful Soup解析html源码
#xiaodeng #python3 #用Beautiful Soup解析html源码 html_doc = """ <html> <head> ...
- python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
- python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
- Python爬虫系列(四):Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...
随机推荐
- 项目代码部署百度云(使用git部署,node环境)
学习做了一个小demo,总是在自己的电脑,和局域网上运行很没意思,现在就做点有意思的事情,将代码部署百度云. 1)首先你得进入百度云(直接百度,先要注册一个账号) 2)点击那个“应用引擎”,就会进入 ...
- 使用JDK合成照片
原图(工程所在目录7098849.jpg): 头像(工程所在目录20181023201750.jpg): 开始合成(执行如下main方法): public static void main(Strin ...
- linux下踢出已登录用户
通过xshell登录到linux,看到如下所示,有3个用户,但是前面两个不知在哪登录的了,那就踢出吧. 先确认一下自己是哪个 顺便注意一下“whoami”和“who am i”的不同 然后踢出前面两个 ...
- Zookeeper--分布式锁和消息队列
在java并发包中提供了若干锁的实现,它们是用于单个java虚拟机进程中的:而分布式锁能够在一组进程之间提供互斥机制,保证在任何时刻只有一个进程可以持有锁. 分布式环境中多个进程的锁则可以使用Zook ...
- java代码--------实现随机输出100个随机数,10行,0--到9的数字
总结:妹纸不是那么会表述,如有不妥之处,请提出来 package com.sads; //杰伦的世界 //实现在0-100个数中,随机输出数每行10个数,也就是10行10列,这些数在0---到9之间 ...
- mysql索引之四:复合索引之最左前缀原理,索引选择性,索引优化策略之前缀索引
高效使用索引的首要条件是知道什么样的查询会使用到索引,这个问题和B+Tree中的“最左前缀原理”有关,下面通过例子说明最左前缀原理. 一.最左前缀索引 这里先说一下联合索引的概念.MySQL中的索引可 ...
- pyc是什么
python是解释型语言,需要解释器对程序逐行做出解释,然后直接运行. C语言是编译型语言,PC不需要翻译,直接执行就可以了. java也是解释型语言,不过速度可以跟编译型媲美. 用java举例,ja ...
- json-lib使用笔记
今天再来记录一款生成JSON的工具——json-lib,它比较与我之前使用的FastJSON来说,使用都是很简单的,但是要使用json-lib要需要的jar包可真不少,所需要的依赖jar有八九个之多, ...
- JAVA中构造函数的参数传递给类中的实例变量
class VolcanoRobot1 { String status; int speed; float temperature; VolcanoRobot1(int speed,float tem ...
- OD 实验(一) - 修改程序标题
需要修改的程序 把 I love fishc.com 修改为 hello world sch01ar 用 OD 打开程序 在程序入口处开始一直按 F8 运行程序,看看在哪里弹出对话框 运行到该地址的时 ...