python系列之（1）BeautifulSoup的用法

好久没更新博客了。打算写一个python的爬虫系列及数据分析。falg也不能随便立，以免打脸。

python爬取内容，是过程，分析数据是结果，最终得出结论才是目的。python爬虫爬取了内容，一般都是从网页上获取，那我们从html页面中如何提取出自己想要的信息呢？那就需要解析。目前常用的有BeautifulSoup、PyQuery、XPath和正则表达式。正则容易出错，而且一直是弱项，就讲讲其他三个的使用，今天先看下BeautifulSoup.

一、简介

BeautifulSoup直译为美丽的汤。是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。

二、安装

 pip install beautifulsoup4

三、准备测试代码

这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档)

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

</body>

</html>

我们先以上述代码为例进行测试

四、使用

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

</body>

</html>

"""

soup = BeautifulSoup(html_doc, features="html.parser")

#print(soup.prettify())

print(soup.title)

#<title>The Dormouse's story</title>

print(soup.title.name)

#title

print(soup.title.string)

#The Dormouse's story

print(soup.title.parent.name)

#head

print(soup.p)

#<p class="title"><b>The Dormouse's story</b></p>

print(soup.p['class'])

#[u'title']

print(soup.a)

#<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

print(soup.find_all('a'))

#[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print(soup.find(id='link3'))

#<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

for link in soup.find_all('a'):

print(link.get('href'))

#http://example.com/elsie

#http://example.com/lacie

#http://example.com/tillie

print(soup.get_text())

#The Dormouse's story

#The Dormouse's story

#Once upon a time there were three little sisters; and their names were

#Elsie,

#Lacie and

#Tillie;

#and they lived at the bottom of a well.

#...

以上注释的都是上一行输出的

五、BeautifulSoup可以传入字符串或文件句柄

from bs4 import BeautifulSoup

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', features="lxml")

tag = soup.b

print(tag)

#<b class="boldest">Extremely bold</b>

tag.name = "blockquote"

print(tag)

#<blockquote class="boldest">Extremely bold</blockquote>

print(tag['class'])

#['boldest']

print(tag.attrs)

#{'class': ['boldest']}

tag['id']="stylebs"

print(tag)

#<blockquote class="boldest" id="stylebs">Extremely bold</blockquote>

del tag['id']

print(tag)

#<blockquote class="boldest">Extremely bold</blockquote>

css_soup = BeautifulSoup('<p class="body strikeout"></p>', features="lxml")

print(css_soup.p['class'])

#['body', 'strikeout']

id_soup = BeautifulSoup('<p id="my id"></p>', features="lxml")

print(id_soup.p['id'])

#my id 

rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>', features="lxml")

print(rel_soup.a['rel'])

#['index']

rel_soup.a['rel'] = ['index', 'contents']

print(rel_soup.p)

参考文档： https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id40

python系列之（1）BeautifulSoup的用法的更多相关文章

孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3
孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步了 ...
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
总结整理 -- python系列
python系列 python--基础学习(一)开发环境搭建,体验HelloWorld python--基础学习(二)判断 .循环.定义函数.继承.调用 python--基础学习(三)字符串单引号.双 ...
初探接口测试框架--python系列7
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
初探接口测试框架--python系列2
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
初探接口测试框架--python系列3
点击标题下「微信」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期 ...
初探接口测试框架--python系列4
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
初探接口测试框架--python系列5
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
初探接口测试框架--python系列6
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...

随机推荐

Python configparser的使用读取配置文件
configparser是Python自带用于读取配置文件的工具包,它的使用非常简单配置文件配置文件[]中为section命名,section的命名可以包含空格,每个section下面以键值对的方 ...
ECMAScript 5 新增 Object 接口
对象构造器说明 Object getPrototypeOf 返回对象的原型 Object getOwnPropertyDescriptor 返回对象自有属性的属性描述符 Object getOwn ...
vue 权限管理
核心想法: 登陆后获得用户角色,通过角色获得用户的权限,注入权限对应的路由.刷新页面,从localStorage用角色(更好的方式是通过token)再次获得所属权限,再次注入路由.在管理界面左端循环权 ...
配置android studio环境2
安装android studio 2.1运行 exe 程序安装截图备注 :O(∩_∩)O~等了 ,但是还是失败, 完全安装啊,不影响,可以手动运行安装目录下的如:D:\Program Files ...
一句话介绍python线程、进程和协程
一.进程: Python的os模块封装了常见的系统调用,其中就包括fork.而fork是linux常用的产生子进程的方法,简言之是一个调用,两个返回. 在python中,以下的两个模块用于进程的使用. ...
UOJ#422. 【集训队作业2018】小Z的礼物
#422. [集训队作业2018]小Z的礼物 min-max容斥转化为每个集合最早被染色的期望时间如果有x个选择可以染色,那么期望时间就是((n-1)*m+(m-1)*n))/x 但是x会变,中途 ...
Java review-basic1
1. Dependency Injection Answer: Any application is composed of many objects that collaborate with ea ...
Javascript模块化编程(一)模块的写法最佳实践
Javascript模块化编程,已经成为一个迫切的需求.理想情况下,开发者只需要实现核心的业务逻辑,其他都可以加载别人已经写好的模块但是,Javascript不是一种模块化编程语言,它不支持类clas ...
Python服务端工程师就业面试指导
Python服务端工程师就业面试指导整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时候 ...
Win7。56个进程让我头疼
乱七八糟的进程一个一个往外蹦,如此痛苦. 安装了一个VM9,进程数量+5,安装了卖咖啡的,进程数量+5. 除去这10个,系统进程数量还有46个....还是太多... 64位系统,真的很痛苦,还没有怎么 ...

python系列之（1）BeautifulSoup的用法

python系列之（1）BeautifulSoup的用法的更多相关文章

随机推荐

热门专题