【转载】Beautiful Soup库（bs4）入门

该库能够解析HTML和XML

使用Beautiful Soup库:

from bs4 import BeautifulSoup

import requests

r = requests.get('http://www.23us.so/')

html = r.text

soup = BeautifulSoup(html,'html.parser')

print soup.prettify()

1、Beautiful Soup库的理解：

HTML文件其实就是由一组尖括号构成的标签组织起来的，每一对尖括号形式一个标签，标签之间存在上下关系，形成标签树；因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

p标签：：标签Tag ——一般，标签名都是成对出现的（位于起始和末尾），例如P；在第一个标签名之后可以有0到多个属性，表示标签的特点

...——中间的class属性，其值为“title ”（属性是由键和值，键值对构成的）

通常，Beautiful Soup库的使用：

from bs4 import BeautifulSoup #主要使用BeautifulSoup类

事实上可以认为：HTML文档和标签树，BeautifulSoup类是等价的

Beautiful Soup库解析器：

bs4的HTML解析器：BeautifulSoup(mk,'html.parser')——条件：安装bs4库

lxml的HTML解析器：BeautifulSoup(mk,'lxml')——pip install lxml

lxml的XML解析器：BeautifulSoup(mk,'xml')——pip install lxml

html5lib的解析器：BeautifulSoup(mk,'html5lib')——pip install html5lib

Beautiful Soup类的基本元素：

1、Tag——标签，最基本的信息组织单元，分别用<>和</>表明开头和结尾

2、Name——标签的名字，...的名字是'p',格式：<tag>.name

3、Attributes——标签的属性，字典形式组织，格式：<tag>.attrs

4、NavigableString——标签内非属性字符串，<>...</>中的字符串，格式：<tag>.string

5、Comment——标签内字符串的注释部分，一种特殊的Comment类型（尖括号叹号表示注释开始：）

获取标签的方法：

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,'html.parser')

soup.a.name #a标签的名字

soup.a.parent.name #a标签的父标签的名字

soup.a.parent.parent.name #a标签的父标签的父标签名字

tag = soup.a

tag.attrs #a标签的属性

soup.a.string #获得a标签内非属性字符串（NavigableString ）注意：soup.b.string也可能是获得Comment标签；可都过类型进行判断

2、基于bs4库的HTML内容遍历方法：

形成了三种遍历：

标签树的下行遍历：

.contents属性：子节点的列表，将<tag>所有儿子节点存入列表
.children属性：子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants属性：子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

也就是说：contents和children只获得当前节点的下一节点的信息；而descendants可以获得当前节点的所有后续节点信息

注意：字符串也属于一个节点，例如'\n'，'and'

遍历儿子节点：

for child in soup.body.children: #迭代类型，需要用循环方式

print(child)

遍历子孙节点：

for child in soup.body.descendants:

print(child)

from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4

import requests

r = requests.get('http://python123.io/ws/demo.html')

demo = r.text

soup = BeautifulSoup(demo,'html.parser')    #解析器：html.parser

child = soup.body.contents

print(child)

for child in soup.body.descendants:

    print(child)

标签树的上行遍历：

.parent属性：节点的父标签
parents属性：节点先辈标签的迭代类型，用于循环遍历先辈节点

注意：在遍历一个标签的所有先辈标签时，会遍历到soup本身，而soup的先辈不存在（也就是None），因此也就没有.name信息

标签树的平行遍历：

注意：平行遍历是有条件的，平行遍历必须发生在同一个父节点下的各节点间

soup.a.next_sibling

soup.a.previous_sibling

for sibling in soup.a.next_siblings:

print(sibling)

for sibling in soup.a.previous_siblings:

print(sibling)

3、基于bs4库的HTML格式输出：

如何能够让html内容更加“友好”的显示：

bs4库的prettify()方法：为html文本的标签以及内容增加换行符，也可以对标签做相关处理，例如soup.a.prettify()

该库能够解析HTML和XML

使用Beautiful Soup库:

from bs4 import BeautifulSoup

soup = BeautifulSoup('data', 'html.parser') #html解析器：html.parser ，前一个参数则是要解析的内容

小测：

from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4

import requests

r = requests.get('http://python123.io/ws/demo.html')

demo = r.text

soup = BeautifulSoup(demo,'html.parser')    #解析器：html.parser

print(soup.prettify())          #打印解析好的内容

1、Beautiful Soup库的理解：

p标签：：标签Tag ——一般，标签名都是成对出现的（位于起始和末尾），例如P；在第一个标签名之后可以有0到多个属性，表示标签的特点

...——中间的class属性，其值为“title ”（属性是由键和值，键值对构成的）

通常，Beautiful Soup库的使用：

from bs4 import BeautifulSoup #主要使用BeautifulSoup类

事实上可以认为：HTML文档和标签树，BeautifulSoup类是等价的

Beautiful Soup库解析器：

bs4的HTML解析器：BeautifulSoup(mk,'html.parser')——条件：安装bs4库

lxml的HTML解析器：BeautifulSoup(mk,'lxml')——pip install lxml

lxml的XML解析器：BeautifulSoup(mk,'xml')——pip install lxml

html5lib的解析器：BeautifulSoup(mk,'html5lib')——pip install html5lib

Beautiful Soup类的基本元素：

1、Tag——标签，最基本的信息组织单元，分别用<>和</>表明开头和结尾

2、Name——标签的名字，...的名字是'p',格式：<tag>.name

3、Attributes——标签的属性，字典形式组织，格式：<tag>.attrs

4、NavigableString——标签内非属性字符串，<>...</>中的字符串，格式：<tag>.string

5、Comment——标签内字符串的注释部分，一种特殊的Comment类型（尖括号叹号表示注释开始：）

获取标签的方法：

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,'html.parser')

soup.a.name #a标签的名字

soup.a.parent.name #a标签的父标签的名字

soup.a.parent.parent.name #a标签的父标签的父标签名字

tag = soup.a

tag.attrs #a标签的属性

soup.a.string #获得a标签内非属性字符串（NavigableString ）注意：soup.b.string也可能是获得Comment标签；可都过类型进行判断

2、基于bs4库的HTML内容遍历方法：

形成了三种遍历：

标签树的下行遍历：

.contents属性：子节点的列表，将<tag>所有儿子节点存入列表
.children属性：子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants属性：子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

也就是说：contents和children只获得当前节点的下一节点的信息；而descendants可以获得当前节点的所有后续节点信息

注意：字符串也属于一个节点，例如'\n'，'and'

遍历儿子节点：

for child in soup.body.children: #迭代类型，需要用循环方式

print(child)

遍历子孙节点：

for child in soup.body.descendants:

print(child)

from bs4 import BeautifulSoup #beautifulsoup4库使用时是简写的bs4
import requests
r = requests.get('http://python123.io/ws/demo.html')
demo = r.text
soup = BeautifulSoup(demo,'html.parser') #解析器：html.parser
child = soup.body.contents
print(child)
for child in soup.body.descendants:

print(child)

标签树的上行遍历：

.parent属性：节点的父标签
parents属性：节点先辈标签的迭代类型，用于循环遍历先辈节点

注意：在遍历一个标签的所有先辈标签时，会遍历到soup本身，而soup的先辈不存在（也就是None），因此也就没有.name信息

标签树的平行遍历：

注意：平行遍历是有条件的，平行遍历必须发生在同一个父节点下的各节点间

soup.a.next_sibling

soup.a.previous_sibling

for sibling in soup.a.next_siblings:

print(sibling)

for sibling in soup.a.previous_siblings:

print(sibling)

3、基于bs4库的HTML格式输出：

如何能够让html内容更加“友好”的显示：

bs4库的prettify()方法：为html文本的标签以及内容增加换行符，也可以对标签做相关处理，例如soup.a.prettify()

【转载】Beautiful Soup库（bs4）入门的更多相关文章

Beautiful Soup库入门
1.安装:pip install beautifulsoup4 Beautiful Soup库是解析.遍历.维护“标签树”的功能库 2.引用:(1)from bs4 import BeautifulS ...
Beautiful Soup库基础用法（爬虫）
初识Beautiful Soup 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/# 中文文档:https://www.crumm ...
Python Beautiful Soup库
Beautiful Soup库 Beautiful Soup库:https://www.crummy.com/software/BeautifulSoup/ 安装Beautiful Soup: 使用B ...
crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作
Requests import requests from PIL import Image from io improt BytesTO import jason url = "..... ...
【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...
python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
python之Beautiful Soup库
1.简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...
Beautiful Soup库介绍
开始前需安装Beautiful Soup 和lxml. Beautiful Soup在解析时依赖解析器,下表列出bs4支持的解析器. 解析器使用方法 Python标准库 BeautifulSoup( ...
Beautiful Soup库
原文传送门:静觅 » Python爬虫利器二之Beautiful Soup的用法

随机推荐

【JavaScript】BOM
一.前言接着前一章的内容,继续Js的学习. 二.内容 window对象 //确定窗口位置 var leftPos = (typeof window.screenLeft == &quo ...
Asp.Net保存session的三种方法 (Dll文件更新导致session丢失的解决办法)
1. InProc模式(默认值):asp.net将session保存到当前进程中,这种方式最快,但是不能多台服务器共享session,且会话状态数据容易丢失. <sessionState mod ...
常用Transformation算子
map 产生的键值对是tupple, split分隔出来的是数组一.常用Transformation算子 (map .flatMap .filter .groupByKey .reduc ...
【BZOJ 1129】[POI2008]Per 二叉堆
这个东西读完题之后,就能知道我们要逐位计算贡献.推一下式子,会发现,这一位的贡献,是当前剩余的数字形成的序列的总数,乘上所剩数字中小于s上这一位的数的个数与所剩数字的总数的比.所以我们维护“当前剩余的 ...
oracle的lpad()函数
lpad函数 lpad函数是Oracle数据库函数,lpad函数从左边对字符串使用指定的字符进行填充.从其字面意思也可以理解,l是left的简写,pad是填充的意思,所以lpad就是从左边填充的意思. ...
poj1204 Word Puzzles
Word Puzzles Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 12090 Accepted: 4547 S ...
mysql ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)错误解决办法
我的电脑是win10,所用的是mysql5.7.14 近期在学习mysql数据库的时候,遇到了这个错误,我的密码错误了.突如其来的问题,很是蒙蔽,因为我没对数据库设置过密码.通过网上查询,可以通过进入 ...
SSH免密码登录，实现数据传输备份
简单来说,就是通过ssh-keygen -t rsa命令来产生一组公私钥,私钥是id_rsa,公钥是id_rsa.pub,把公钥上传到另一台服务器对应账号的.ssh/authorized_keys,即 ...
mysql 查询小demo
两张表的的结构如下,需求是写出从one表到two表和从two表到one表的查询转换. create table student_one( name varchar(50) default '' not ...
2017北京国庆刷题Day1 morning
期望得分:100+100+100=300 实际得分:100+100+70=270 T1位运算1(bit) Time Limit:1000ms Memory Limit:128MB 题目描述 LYK ...

【转载】Beautiful Soup库（bs4）入门

【转载】Beautiful Soup库（bs4）入门的更多相关文章

随机推荐

热门专题