Python3爬虫（六）解析库的使用之Beautiful Soup

Infi-chu:

http://www.cnblogs.com/Infi-chu/

Beautiful Soup

借助网页的结构和属性等特性来解析网页，这样就可以省去复杂的正则表达式的编写。

Beautiful Soup是Python的一个HTML或XML的解析库。

1.解析器

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup,"html.parser")	执行速度适中、文档容错能力强	2.7.3和3.2.2之前的版本容错能力差
lxml HTML解析器	BeautifulSoup(markup,"lxml")	速度快、文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup,"xml")	速度快，唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup,"html5lib")	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

综上所述，推荐lxml HTML解析器

from bs4 import BeautifulSoup

soup = BeautifulSoup('<p>Hello World</p>','lxml')

print(soup.p.string)

2.基本用法：

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

<p class="title" name="dr"><b>title example</b></p>

<p class="story">link

<a href="http://example.com/elsie" class="sister" id="link1">elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">lacie</a>,

<a href="http://example.com/tillie" class="sister" id="link3">tillie</a>,

last sentence</p>

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.prettify())    # 修复html

print(soup.title.string)    # 输出title节点的字符串内容

3.节点选择器：

选择元素

使用soup.元素的方式获取

提取信息

（1）获取名称

使用soup.元素.name获取元素名称

（2）获取属性

使用soup.元素.attrs

使用soup.元素.attrs['name']

（3）元素内容

使用soup.元素.string获取内容

嵌套选择

使用soup.父元素.元素.string获取内容

关联选择

（1）子节点和子孙节点

html = '''

<html>

<head><title>Infi-chu example</title></head>

<body>

<p class="title" name="dr"><b>title example</b></p>

<p class="story">link

<a href="http://example.com/elsie" class="sister" id="link1"><span>elsie</span></a>,

<a href="http://example.com/lacie" class="sister" id="link2"><span>lacie</span></a>,

<a href="http://example.com/tillie" class="sister" id="link3"><span>tillie</span></a>,

last sentence</p>

'''

from bs4 import BeautifulSoup

# 得到直接子节点，children属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.children)

for i ,child in enumerate(soup.p.children):

    print(i,child)

# 得到所有的子孙节点，descendants属性

soup = BeautifulSoup(html,'lxml')

print(soup.p.descendants)

for i,child in enmuerate(soup.p.descendants):

    print(i,child)

（2）父节点和祖先节点

调用父节点，使用parent属性

获取所有祖先节点，使用parents属性

（3）兄弟节点

next_sibling　　下一个兄弟元素

previous_sibling　　上一个兄弟元素

next_siblings　　所有前面兄弟节点

previous_siblings　　所有后面兄弟节点

（4）提取信息

4.方法选择器：

find_all()

find_all(name,attrs,recursize,text,**kwargs)

（1）name

soup.find_all(name='ul')

for ul in soup.find_all(name='ul'):

    print(ul.find_all(name='ul'))

for ul in soup.find_all(name='ul'):

    print(ul.find_all(name='li'))

    for li in ul.find_all(name='li'):

        print(li.string)

（2）attes

# 根据节点名查询

print(soup.find_all(attrs={'id':'list1'}))

print(soup.find_all(attrs={'name':'elements'}))

# 也可以写成

print(soup.find_all(id='list1'))

print(soup.find_all(class='elements'))

（3）text

text参数可以用来匹配节点的文本，传入的形式可以是字符串，可以是正则表达式对象

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

print(soup.find_all(text=re.compile('link')))

find()

返回一个元素

【注】

find_parents()和find_parent()

find_next_siblings()和find_next_sibling()

find_previous_siblings()和find_previous_sibling()

find_all_next()和find_next()

find_all_previous()和find_previous()

5.CSS选择器：

嵌套选择

for ul in soup.select('ul'):

    print(ul.select('li'))

获取属性

for ul in soup.select('ul'):

    print(ul['id'])

    # 等价于

    print(ul.attrs['id'])

获取文本

获取文本除了string属性还有get_text()方法

for li in soup.select('li'):

    # 效果一样

    print(li.get_text())

    print(li.string)

Python3爬虫（六）解析库的使用之Beautiful Soup的更多相关文章

爬虫（五）—— 解析库（二）beautiful soup解析库
目录解析库--beautiful soup 一.BeautifulSoup简介二.安装模块三.Beautiful Soup的基本使用四.Beautiful Soup查找元素 1.查找文本.属性 ...
ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr
lxml 的安装(xpath) pip3 install lxml 可能会缺少以下依赖: sudo apt-get install -y python3-dev build-e ssential li ...
Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
Python爬虫【解析库之pyquery】
该库跟jQuery的使用方法基本一样 http://pyquery.readthedocs.io/ 官方文档解析库的安装 pip3 install pyquery 初始化 1.字符串初始化 htm ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
爬虫之解析库BeautifulSoup
介绍 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等 ...
【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...

随机推荐

xml 转义特殊字符
写了个request2XML的方法,每当数据中有'<'.'&'符号时,封装的XML就无法解析.发现了XML里的CDATA属性,问题迎刃而解!在XML文档中的所有文本都会被解析器解析. 只 ...
SQA1
客观地验证软件项目产品和工作是否遵循恰当的标准.步骤和需求. 2.将软件质量保证工作及结果通知给相关组别和个人.
IOS PushMeBaby(是一款用来测试ANPs的开源Mac项目)
● PushMeBaby是一款用来测试ANPs的开源Mac项目 ● 它充当了服务器的作用,用法非常简单 ● 它负责将内容提交给苹果的APNs服务器,苹果的APNs服务器再将内容推送给用户的设备 ● ...
添加模糊效果demo
添加模糊效果demo: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> & ...
Idea Find in Path 全局搜索的功能
当我们想查找哪些文件中含有某个关键词时,就要依靠Find in Path,相当于一个全局搜索的功能.
MYSQL5.7.15安装步骤
下载完成之后双击安装: 接下来一路next (出现的问题) 在我第一次安装myslq过程中,上图中的mysql server failed ,这是因为电脑环境需要升级一个插件,Visual C++ 2 ...
o'Reill的SVG精髓（第二版）学习笔记——第十一章
第十一章:滤镜 11.1滤镜的工作原理当SVG阅读器程序处理一个图形对象时,它会将对象呈现在位图输出设备上:在某一时刻,阅读器程序会把对象的描述信息转换为一组对应的像素,然后呈现在输出设备上.例如我 ...
LeetCode15.三数之和 JavaScript
给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组. 注意:答案中不可以包含重复的三元组. ...
webpack——概念的引入
## 在网页中会引用哪些常见的静态资源?+ JS - .js .jsx .coffee .ts(TypeScript 类 C# 语言)+ CSS - .css .less .sass .scss+ I ...
GoBelieve Android SDK接入备忘
Android SDK版本目前SDK只支持Android 2.2或以上版本的手机系统. AndroidManifest.xml配置以下配置可以在IMDemo/AndroidManifest.xml ...

Python3爬虫（六） 解析库的使用之Beautiful Soup

Python3爬虫（六） 解析库的使用之Beautiful Soup的更多相关文章

随机推荐

热门专题

Python3爬虫（六）解析库的使用之Beautiful Soup

Python3爬虫（六）解析库的使用之Beautiful Soup的更多相关文章