python BeautifulSoup的简单使用

　　官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

　　参考：https://www.cnblogs.com/yupeng/p/3362031.html

　　什么是BeautifulSoup？

　　　　BeautifulSoup是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。

　　下面通过一个测试例子简单说明下BeautifulSoup的用法

from bs4 import BeautifulSoup
def beautifulSoup_test(self):

        html_doc = """

        <html><head><title>The Dormouse's story</title></head>

        <body>

        <p class="title"><b>The Dormouse's story</b></p>

        <p class="story">Once upon a time there were three little sisters; and their names were

        <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

        <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

        <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

        <div  class="text" id="div1">测试</div>

        and they lived at the bottom of a well.</p>

        <p class="story">...</p>

        """

        # soup 就是BeautifulSoup处理格式化后的字符串

        soup = BeautifulSoup(html_doc,'lxml')

        # 得到的是title标签

        print(soup.title)

        # 输出：<title>The Dormouse's story</title>

        # 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all函数。

        # find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.

        print(soup.p)

        print(soup.find_all('p'))

        print(soup.find(id='link3'))

        # 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的

        print(soup.get_text())

        aitems = soup.find_all('a')

        # 获取标签a的链接和id

        for item in aitems:

            print(item["href"],item["id"])

        # 1、通过css查找

        print(soup.find_all("a", class_="sister"))

        # 输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

        print(soup.select("p.title"))

        # 输出：[<p class="title"><b>The Dormouse's story</b></p>]

        # 2、通过属性进行查找

        print(soup.find_all("a", attrs={"class": "sister"}))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

        # 3、通过文本进行查找

        print(soup.find_all(text="Elsie"))

        # 输出：['Elsie']

        print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))

        # 输出：['Elsie', 'Lacie', 'Tillie']

        # 4、限制结果个数

        print(soup.find_all("a", limit=2))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

        print(soup.find_all(id="link2"))

        # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

        print(soup.find_all(id=True))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # 输出：<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>,

        # <div class="text" id="div1">测试</div>]

python BeautifulSoup的简单使用的更多相关文章

Python BeautifulSoup 简单笔记
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树.通常用来分析爬虫抓取的web文档.对于不规则的 Html文档,也有很多 ...
爬虫基础库之beautifulsoup的简单使用
beautifulsoup的简单使用简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
python BeautifulSoup的使用方法
BeautifulSoup的使用我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或 ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
【转】Python BeautifulSoup 中文乱码解决方法
这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输 ...
Python django实现简单的邮件系统发送邮件功能
Python django实现简单的邮件系统发送邮件功能本文实例讲述了Python django实现简单的邮件系统发送邮件功能. django邮件系统 Django发送邮件官方中文文档总结如下: ...
python shutil模块简单介绍
python shutil模块简单介绍简介 shutil模块提供了大量的文件的高级操作.特别针对文件拷贝和删除,主要功能为目录和文件操作以及压缩操作. shutil 模块方法: copy(src, ...
python之pandas简单介绍及使用（一）
python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...
python之simplejson，Python版的简单、快速、可扩展 JSON 编码器/解码器
python之simplejson,Python版的简单. 快速. 可扩展 JSON 编码器/解码器 simplejson Python版的简单. 快速. 可扩展 JSON 编码器/解码器编码基本的 ...

随机推荐

Scala集合笔记
Scala的集合框架类比Java提供了更多的一些方便的api,使得使用scala编程时代码变得非常精简,尤其是在Spark中,很多功能都是由scala的这些api构成的,所以,了解这些方法的使用,将更 ...
python接口自动化测试八：更新Cookies、session保持会话
s = requests.session() # 此方法只适用于网站是cookies这种,网站是token的没用 # 这样做的好处就是可以保存cookies并保持会话,不用每次都去获取.传参 Toke ...
设计模式【转自JackFrost的博客】
首先,感谢作者对知识的分享使用设计模式是为了可重用代码.让代码更容易被他人理解.保证代码可靠性.设计模式使代码编制真正工程化,是软件工程的基石脉络,如同大厦的结构一样. 文章结构:1.单一职责原则( ...
Redis设置Key/value的规则定义和注意事项（附工具类）
对于redis的存储key/value键值对,经过多次踩坑之后,我们总结了一套规则:这篇文章主要讲解定义key/value键值对时的定义规则和注意事项. 前面一篇文章讲了如何定义Redis的客户端和D ...
Hibernate的四种查询方式（主键查询，HQL查询，Criteria查询，本地sql查询）和修改和添加
Hibernate的添加,修改,查询(三种查询方式)的方法: 案例演示: 1:第一步,导包,老生常谈了都是,省略: 2:第二步,创建数据库和数据表,表结构如下所示: 3:第三步创建实体类User.ja ...
LICEcap方便快捷制作gif图片的工具
总是看见别人的博客里面动态的小图片,是不是有种冲动自己也想搞,但是就是不知道咋搞,这里简单介绍一款很实用的制作gif的软件. LICEcap的网址:http://www.cockos.com/lice ...
011 处理模型数据时@ModelAttribute的使用
一:说明 1.使用场景在下面的场景中: 使用new对象时,最后的效果是两个被赋值了,但是还有一个值是空值的,这个不符合只更新两个值,另一个值不变的情况. 正确的做法: 三个值得数据不是new出来的, ...
在VS代码中编辑Python
在VS代码中编辑Python Python扩展提供了许多用于在Visual Studio代码中编辑Python源代码的功能: 自动完成和智能感知在终端中运行选择/行(REPL) 格式化重构也见L ...
解决html5中video标签无法播放mp4问题的办法
这篇文章主要给大家介绍了关于解决html5中video标签无法播放mp4问题的办法,文中介绍的非常详细,相信会对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起看看吧. 最近发现了一个 ...
HDU - 1712 - ACboy needs your help 【分组背包】
<题目链接> 题目大意:有n个课程,现在花M天来学习这些课程,学习每个课程花的天数所得到的价值不同,求M天怎么分配学习才能得到的价值最大.(这些课程得到的价值和所花天数的关系由矩阵给出) ...

python BeautifulSoup的简单使用

python BeautifulSoup的简单使用的更多相关文章

随机推荐

热门专题