python BeautifulSoup的简单使用

　　官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

　　参考：https://www.cnblogs.com/yupeng/p/3362031.html

　　什么是BeautifulSoup？

　　　　BeautifulSoup是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。

　　下面通过一个测试例子简单说明下BeautifulSoup的用法

from bs4 import BeautifulSoup
def beautifulSoup_test(self):

        html_doc = """

        <html><head><title>The Dormouse's story</title></head>

        <body>

        <p class="title"><b>The Dormouse's story</b></p>

        <p class="story">Once upon a time there were three little sisters; and their names were

        <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

        <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

        <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

        <div  class="text" id="div1">测试</div>

        and they lived at the bottom of a well.</p>

        <p class="story">...</p>

        """

        # soup 就是BeautifulSoup处理格式化后的字符串

        soup = BeautifulSoup(html_doc,'lxml')

        # 得到的是title标签

        print(soup.title)

        # 输出：<title>The Dormouse's story</title>

        # 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all函数。

        # find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.

        print(soup.p)

        print(soup.find_all('p'))

        print(soup.find(id='link3'))

        # 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的

        print(soup.get_text())

        aitems = soup.find_all('a')

        # 获取标签a的链接和id

        for item in aitems:

            print(item["href"],item["id"])

        # 1、通过css查找

        print(soup.find_all("a", class_="sister"))

        # 输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

        print(soup.select("p.title"))

        # 输出：[<p class="title"><b>The Dormouse's story</b></p>]

        # 2、通过属性进行查找

        print(soup.find_all("a", attrs={"class": "sister"}))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

        # 3、通过文本进行查找

        print(soup.find_all(text="Elsie"))

        # 输出：['Elsie']

        print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))

        # 输出：['Elsie', 'Lacie', 'Tillie']

        # 4、限制结果个数

        print(soup.find_all("a", limit=2))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

        print(soup.find_all(id="link2"))

        # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

        print(soup.find_all(id=True))

        #输出：[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

        # 输出：<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

        # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>,

        # <div class="text" id="div1">测试</div>]

python BeautifulSoup的简单使用的更多相关文章

Python BeautifulSoup 简单笔记
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树.通常用来分析爬虫抓取的web文档.对于不规则的 Html文档,也有很多 ...
爬虫基础库之beautifulsoup的简单使用
beautifulsoup的简单使用简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
python BeautifulSoup的使用方法
BeautifulSoup的使用我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或 ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
【转】Python BeautifulSoup 中文乱码解决方法
这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输 ...
Python django实现简单的邮件系统发送邮件功能
Python django实现简单的邮件系统发送邮件功能本文实例讲述了Python django实现简单的邮件系统发送邮件功能. django邮件系统 Django发送邮件官方中文文档总结如下: ...
python shutil模块简单介绍
python shutil模块简单介绍简介 shutil模块提供了大量的文件的高级操作.特别针对文件拷贝和删除,主要功能为目录和文件操作以及压缩操作. shutil 模块方法: copy(src, ...
python之pandas简单介绍及使用（一）
python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...
python之simplejson，Python版的简单、快速、可扩展 JSON 编码器/解码器
python之simplejson,Python版的简单. 快速. 可扩展 JSON 编码器/解码器 simplejson Python版的简单. 快速. 可扩展 JSON 编码器/解码器编码基本的 ...

随机推荐

性能测试十八：jmeter分布式
一台压力机产生得压力是有限的,尤其是jmeter,java本来性能就不是很好,并发特别多的时候,jmeter的性能会急剧下降,正常的接口,若单台压力机,超过1000并发以后,jmeter的性能就不怎么 ...
双倍浮向（双倍边距）（只有IE6出现）
声明: web前端学习笔记,欢迎大神指点.联系QQ:1522025433. 描述:在IE6中,一个居左(或居右)浮动的元素放置进一个容器盒(box),并在浮动元素上使用了左边距(或右边距) 在ie6内 ...
python 全栈开发，Day124(MongoDB初识,增删改查操作,数据类型,$关键字以及$修改器,"$"的奇妙用法,Array Object 的特殊操作,选取跳过排序,客户端操作)
一.MongoDB初识什么是MongoDB MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介 ...
Linux学习笔记：使用prompt关闭ftp中mget和mput的确认提醒
当使用mget和mput上传或下载多个文件时,为了关闭确认提醒,可使用prompt命令. ftp prompt -- 切换提示切换交谈式指令(使用mput/mget 时不用每个文件皆询问yes/n ...
Hibernate的四种查询方式（主键查询，HQL查询，Criteria查询，本地sql查询）和修改和添加
Hibernate的添加,修改,查询(三种查询方式)的方法: 案例演示: 1:第一步,导包,老生常谈了都是,省略: 2:第二步,创建数据库和数据表,表结构如下所示: 3:第三步创建实体类User.ja ...
CentOS安装redis-audit 但执行时出错未解决记录一下安装过程
网上很多安装过程都太老了,测试很多方法终于成功了,但执行时还是出错,哪位熟悉的可以告知一下. yum install -y ruby rubygems ruby-devel git gcc gem s ...
POJ 2395 Out of Hay (Kruskal)
题意:从待选的路里面选出若干将所有点连通,求选出的边里最长边的最小值. 算法:要使得树的最长边最小,那么每次确定的边都应是待选边里最小的,即最小生成树.对应Kruskal算法. #include &l ...
hihocoder 1341 Constraint Checker【string】
hihocoder 1341 解释:这道题题目还是比较容易理解,就是根据输入的若干个不等式,校验后面输入的数据是否都满足前面的不等式,满足就输出Yes,只要有一个不满足就输出No.如“A<B&l ...
IIS 之通过 Web.config 修改文件上传大小限制设置方法
在IIS 6.0中,不设置默认大小为4M,设置文件上传大小的方法,maxRequestLength(KB),executionTimeout(毫秒),配置如下节点: <system.web> ...
springboot+thymeleaf简单使用
关于springboot想必很多人都在使用,由于公司项目一直使用的是SpringMVC,所以自己抽空体验了一下springboot的简单使用. 环境搭建 springbooot的环境搭建可以说很灵活, ...

python BeautifulSoup的简单使用

python BeautifulSoup的简单使用的更多相关文章

随机推荐

热门专题