Python Beautiful Soup 解析库的使用

Beautiful Soup

借助网页的结构和属性等特性来解析网页，这样就可以省去复杂的正则表达式的编写。

Beautiful Soup是Python的一个HTML或XML的解析库。

1.解析器

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup,"html.parser")	执行速度适中、文档容错能力强	2.7.3和3.2.2之前的版本容错能力差
lxml HTML解析器	BeautifulSoup(markup,"lxml")	速度快、文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup,"xml")	速度快，唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup,"html5lib")	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

综上所述，推荐lxml HTML解析器

from bs4 import BeautifulSoup

soup = BeautifulSoup('Hello World','lxml')

print(soup.p.string)

2.基本用法：

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

title example

link

<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,

<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,

last sentence

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.prettify()) # 修复html

print(soup.title.string) # 输出title节点的字符串内容

3.节点选择器：

选择元素

使用soup.元素的方式获取

提取信息

（1）获取名称

使用soup.元素.name获取元素名称

（2）获取属性

使用soup.元素.attrs

使用soup.元素.attrs['name']

（3）元素内容

使用soup.元素.string获取内容

嵌套选择

使用soup.父元素.元素.string获取内容

关联选择

（1）子节点和子孙节点

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

title example

link

<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,

<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,

last sentence

'''

from bs4 import BeautifulSoup

# 得到直接子节点，children属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.children)

for i ,child in enumerate(soup.p.children):

print(i,child)

# 得到所有的子孙节点，descendants属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.descendants)

for i,child in enmuerate(soup.p.descendants):

print(i,child)

（2）父节点和祖先节点

调用父节点，使用parent属性

获取所有祖先节点，使用parents属性

（3）兄弟节点

next_sibling　　下一个兄弟元素

previous_sibling　　上一个兄弟元素

next_siblings　　所有前面兄弟节点

previous_siblings　　所有后面兄弟节点

（4）提取信息

4.方法选择器：

find_all()

find_all(name,attrs,recursize,text,**kwargs)

（1）name

soup.find_all(name='ul')

for ul in soup.find_all(name='ul'):

print(ul.find_all(name='ul'))

for ul in soup.find_all(name='ul'):

print(ul.find_all(name='li'))

for li in ul.find_all(name='li'):

print(li.string)

（2）attes

# 根据节点名查询

print(soup.find_all(attrs={'id':'list1'}))

print(soup.find_all(attrs={'name':'elements'}))

# 也可以写成

print(soup.find_all(id='list1'))

print(soup.find_all(class='elements'))

（3）text

text参数可以用来匹配节点的文本，传入的形式可以是字符串，可以是正则表达式对象

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.find_all(text=re.compile('link')))

find()

返回一个元素

【注】

find_parents()和find_parent()

find_next_siblings()和find_next_sibling()

find_previous_siblings()和find_previous_sibling()

find_all_next()和find_next()

find_all_previous()和find_previous()

5.CSS选择器：

嵌套选择

1 2	`for` `ul` `in` `soup.select('ul'):` `print(ul.select('li'))`

获取属性

for ul in soup.select('ul'):

print(ul['id'])

# 等价于

print(ul.attrs['id'])

获取文本

获取文本除了string属性还有get_text()方法

for li in soup.select('li'):

# 效果一样

print(li.get_text())

print(li.string)

Python Beautiful Soup 解析库的使用的更多相关文章

Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
Beautiful Soup解析库的安装和使用
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式.官方文档:https://www.crummy.co ...
爬虫（五）—— 解析库（二）beautiful soup解析库
目录解析库--beautiful soup 一.BeautifulSoup简介二.安装模块三.Beautiful Soup的基本使用四.Beautiful Soup查找元素 1.查找文本.属性 ...
(17)python Beautiful Soup 4.6
一.安装 1.登陆官网:https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径,运行 setup.py buil ...
爬虫5_python2_使用 Beautiful Soup 解析数据
使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HT ...
用Beautiful Soup解析html源码
#xiaodeng #python3 #用Beautiful Soup解析html源码 html_doc = """ <html> <head> ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...

随机推荐

项目代码部署百度云（使用git部署，node环境）
学习做了一个小demo,总是在自己的电脑,和局域网上运行很没意思,现在就做点有意思的事情,将代码部署百度云. 1)首先你得进入百度云(直接百度,先要注册一个账号) 2)点击那个“应用引擎”,就会进入 ...
使用JDK合成照片
原图(工程所在目录7098849.jpg): 头像(工程所在目录20181023201750.jpg): 开始合成(执行如下main方法): public static void main(Strin ...
linux下踢出已登录用户
通过xshell登录到linux,看到如下所示,有3个用户,但是前面两个不知在哪登录的了,那就踢出吧. 先确认一下自己是哪个顺便注意一下“whoami”和“who am i”的不同然后踢出前面两个 ...
Zookeeper--分布式锁和消息队列
在java并发包中提供了若干锁的实现,它们是用于单个java虚拟机进程中的:而分布式锁能够在一组进程之间提供互斥机制,保证在任何时刻只有一个进程可以持有锁. 分布式环境中多个进程的锁则可以使用Zook ...
java代码--------实现随机输出100个随机数，10行，0--到9的数字
总结:妹纸不是那么会表述,如有不妥之处,请提出来 package com.sads; //杰伦的世界 //实现在0-100个数中,随机输出数每行10个数,也就是10行10列,这些数在0---到9之间 ...
mysql索引之四：复合索引之最左前缀原理，索引选择性，索引优化策略之前缀索引
高效使用索引的首要条件是知道什么样的查询会使用到索引,这个问题和B+Tree中的“最左前缀原理”有关,下面通过例子说明最左前缀原理. 一.最左前缀索引这里先说一下联合索引的概念.MySQL中的索引可 ...
pyc是什么
python是解释型语言,需要解释器对程序逐行做出解释,然后直接运行. C语言是编译型语言,PC不需要翻译,直接执行就可以了. java也是解释型语言,不过速度可以跟编译型媲美. 用java举例,ja ...
json-lib使用笔记
今天再来记录一款生成JSON的工具——json-lib,它比较与我之前使用的FastJSON来说,使用都是很简单的,但是要使用json-lib要需要的jar包可真不少,所需要的依赖jar有八九个之多, ...
JAVA中构造函数的参数传递给类中的实例变量
class VolcanoRobot1 { String status; int speed; float temperature; VolcanoRobot1(int speed,float tem ...
OD 实验(一) - 修改程序标题
需要修改的程序把 I love fishc.com 修改为 hello world sch01ar 用 OD 打开程序在程序入口处开始一直按 F8 运行程序,看看在哪里弹出对话框运行到该地址的时 ...

Python Beautiful Soup 解析库的使用

Python Beautiful Soup 解析库的使用的更多相关文章

随机推荐

热门专题