Python Beautiful Soup 解析库的使用

Beautiful Soup

借助网页的结构和属性等特性来解析网页，这样就可以省去复杂的正则表达式的编写。

Beautiful Soup是Python的一个HTML或XML的解析库。

1.解析器

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup,"html.parser")	执行速度适中、文档容错能力强	2.7.3和3.2.2之前的版本容错能力差
lxml HTML解析器	BeautifulSoup(markup,"lxml")	速度快、文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup,"xml")	速度快，唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup,"html5lib")	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

综上所述，推荐lxml HTML解析器

from bs4 import BeautifulSoup

soup = BeautifulSoup('Hello World','lxml')

print(soup.p.string)

2.基本用法：

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

title example

link

<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,

<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,

last sentence

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.prettify()) # 修复html

print(soup.title.string) # 输出title节点的字符串内容

3.节点选择器：

选择元素

使用soup.元素的方式获取

提取信息

（1）获取名称

使用soup.元素.name获取元素名称

（2）获取属性

使用soup.元素.attrs

使用soup.元素.attrs['name']

（3）元素内容

使用soup.元素.string获取内容

嵌套选择

使用soup.父元素.元素.string获取内容

关联选择

（1）子节点和子孙节点

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

title example

link

<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,

<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,

last sentence

'''

from bs4 import BeautifulSoup

# 得到直接子节点，children属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.children)

for i ,child in enumerate(soup.p.children):

print(i,child)

# 得到所有的子孙节点，descendants属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.descendants)

for i,child in enmuerate(soup.p.descendants):

print(i,child)

（2）父节点和祖先节点

调用父节点，使用parent属性

获取所有祖先节点，使用parents属性

（3）兄弟节点

next_sibling　　下一个兄弟元素

previous_sibling　　上一个兄弟元素

next_siblings　　所有前面兄弟节点

previous_siblings　　所有后面兄弟节点

（4）提取信息

4.方法选择器：

find_all()

find_all(name,attrs,recursize,text,**kwargs)

（1）name

soup.find_all(name='ul')

for ul in soup.find_all(name='ul'):

print(ul.find_all(name='ul'))

for ul in soup.find_all(name='ul'):

print(ul.find_all(name='li'))

for li in ul.find_all(name='li'):

print(li.string)

（2）attes

# 根据节点名查询

print(soup.find_all(attrs={'id':'list1'}))

print(soup.find_all(attrs={'name':'elements'}))

# 也可以写成

print(soup.find_all(id='list1'))

print(soup.find_all(class='elements'))

（3）text

text参数可以用来匹配节点的文本，传入的形式可以是字符串，可以是正则表达式对象

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.find_all(text=re.compile('link')))

find()

返回一个元素

【注】

find_parents()和find_parent()

find_next_siblings()和find_next_sibling()

find_previous_siblings()和find_previous_sibling()

find_all_next()和find_next()

find_all_previous()和find_previous()

5.CSS选择器：

嵌套选择

1 2	`for` `ul` `in` `soup.select('ul'):` `print(ul.select('li'))`

获取属性

for ul in soup.select('ul'):

print(ul['id'])

# 等价于

print(ul.attrs['id'])

获取文本

获取文本除了string属性还有get_text()方法

for li in soup.select('li'):

# 效果一样

print(li.get_text())

print(li.string)

Python Beautiful Soup 解析库的使用的更多相关文章

Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
Beautiful Soup解析库的安装和使用
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式.官方文档:https://www.crummy.co ...
爬虫（五）—— 解析库（二）beautiful soup解析库
目录解析库--beautiful soup 一.BeautifulSoup简介二.安装模块三.Beautiful Soup的基本使用四.Beautiful Soup查找元素 1.查找文本.属性 ...
(17)python Beautiful Soup 4.6
一.安装 1.登陆官网:https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径,运行 setup.py buil ...
爬虫5_python2_使用 Beautiful Soup 解析数据
使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HT ...
用Beautiful Soup解析html源码
#xiaodeng #python3 #用Beautiful Soup解析html源码 html_doc = """ <html> <head> ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...

随机推荐

L2TP/IPSec一键安装脚本
本脚本适用环境:系统支持:CentOS6+,Debian7+,Ubuntu12+内存要求:≥128M更新日期:2017 年 05 月 28 日关于本脚本:名词解释如下L2TP(Layer 2 Tun ...
MyEclipse自动生成Ant Build.xm
关于MyEclipse 自动生成 Ant Build.xml 配置文件,生成的方法很隐蔽,是自己无意中找到的.选择你要生成Build.xml文件的项目,右键. Export-> General ...
谈谈JS中的高级函数
博客原文地址:Claiyre的个人博客如需转载,请在文章开头注明原文地址在JavaScript中,函数的功能十分强大.它们是第一类对象,也可以作为另一个对象的方法,还可以作为参数传入另一个函数,不仅 ...
dateframe行列插入和删除操作
ar = np.array(list("ABCDEFG")) # array只是Convert,默认会copy源值.asarray也是Convert,如果源值是array则不cop ...
使用GDI+保存带Alpha通道的图像
带Alpha通道的图像(ARBG)在通过GDIPlus::Bitmap::FromHBITMAP等转为GDI+位图,再存储时,透明区域会变成纯黑(也有可能是纯白?). 网上找了两段保持透明的实现代 ...
Car-eye-http-flv-module 实现nginx-rtmp-mudule HTTP方式的FLV直播功能
nginx-rtmp-mudule RTMP 是一款优秀的Car-eye-http-flv-module 是在nginx-rtmp-mudule RTMP基础上修改的流媒体服务器,除了支持flash播 ...
Java程序员之JS(一) 之 JQuery.ajax
背景:紧着现在项目的需要,先从JQuery.ajax出发,主要需求是通过 js 调用Java 代码,从而适应现在的项目. 先从几个概念开始讲解: 一. 什么是Deferred Deferred 对象 ...
一次hadoop集群机器加内存的运维过程
由于前期的集群规划问题,导致当前Hadoop集群中的硬件并没有完全利用起来.当前机器的内存CPU比例为2G:1core,但一般的MapReduce任务(数据量处理比较大,逻辑较复杂)的MR两端都需要将 ...
Python Twisted系列教程21: Twisted和Haskell
作者:dave@http://krondo.com/twisted-and-haskell/ 译者: Cheng Luo 你可以从”第一部分 Twist理论基础“开始阅读:也可以从”Twisted ...
bower的安装和使用
第一下载node 网址https://nodejs.org/en/ 安装过程基本直接“NEXT”就可以了. 安装完成之后,我们先检测下NodeJS是否安装成功,cmd命令行中键入: node -v ...

Python Beautiful Soup 解析库的使用

Python Beautiful Soup 解析库的使用的更多相关文章

随机推荐

热门专题