Python库-BeautifulSoup

sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser")

方法

1.sp.title

返回网页标题

2.sp.text

返回去除所有HTML标签后的网页内容

3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs)

该函数返回值为字符串

第一个参数是标签名字，第二个是个网页属性的字典,例如:

<a href = "http://www.baidu.com"

class = "sister" id = "link1">Elsie</a>

sp.find("a",{"id":"link1"})

sp.find("a",{"href":"http://www.baidu.com"})

4.sp.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

第一个参数可以是多个标签名字构成的列表，例如:

sp.find(['a','b'],{"id":"link1"})

5.sp.select(selector, _candidate_generator=None, limit=None)

该函数返回值为列表

第一个参数可以是控件id值，要在引号之内加入#，例如：

t = m.select("#userAccount")

# 输出 [<input id="userAccount" style="position:absolute; top:7px;" type="text" value=""/>]

第一个参数也可以是css类名，例如：

<p class ="title"><b>文件标题</b></p>

datal = sp.select(".title")

6.get(属性名称)

<a href = "http://www.baidu.com"

class = "sister" id = "link1">Elsie</a>

datal = sp.find("a",{"id":"link1"})

print(datal.get("href"))

# 输出 http://www.baidu.com

Python库-BeautifulSoup的更多相关文章

Python安装BeautifulSoup库（Windows平台下）
简介参照官网Beautiful Soup4.4.0文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 安装步骤 1.到https:// ...
Python爬虫-- BeautifulSoup库
BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器.一个灵活又方便的网页解析库,处理高效,支持多种解析器.利用它就不用编写正则表达式也能方便的实现网页信息的抓取 ...
python库学习笔记——爬虫常用的BeautifulSoup的介绍
1. 开启Beautiful Soup 之旅在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考. 官方文档 2. 创建 Beautiful Soup 对象首先 ...
python之BeautifulSoup库
1. BeautifulSoup库简介和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.lxml 只会局部遍历 ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...
python+urllib+beautifulSoup实现一个简单的爬虫
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能 ...
Python 库大全
作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非 ...

随机推荐

快速切题 poj 3026 Borg Maze 最小生成树+bfs prim算法难度:0
Borg Maze Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 8905 Accepted: 2969 Descrip ...
ZOJ 2975 Kinds of Fuwas（暴力+排列组合）
Kinds of Fuwas Time Limit: 2 Seconds Memory Limit: 65536 KB In the year 2008, the 29th Olympic ...
解如何利用 XML 和 JavaScript Object Notation 在 Ajax 客户端和 Java 服务器之间传输数据(代码)(Oracle)。
---------------------------------ajaxUtil----------------------------------------------------------- ...
Shell 命令行统计 apache 网站日志访问IP以及IP归属地
Shell 命令行统计 apache 网站日志访问IP以及IP归属地我的一个站点用 apache 服务跑着,积攒了很多的日志.我想用 shell 看看有哪些人访问过我的站点,并且他来自哪里. 因为日 ...
charles抓包--手机端
Fiddler和charles都是抓包工具,可以抓到pc端的请求,手机上设置代理后也可以抓到手机上的请求,也可以修改请求数据和返回的数据. 在接口已经使用的时候,比如说已经用到了app上,app端测试 ...
高德地图Demo运行报错 com.android.ide.common.process.ProcessException: Failed to execute aapt
最近由于有需求去做导航方面的Android开发,很是无奈,以前也的确是没有搞过,领导开大会当着所有人的面说这是给我分配的第一个工作,无论如何要做好,突然间感觉压力好大,自己已经多年没有敲过代码,而且A ...
Git学习的网址
http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 https://github.co ...
CentOS下glibc更新
使用java -agentpath=xxx时报该错,提示glibc版本过低:version `GLIBC_2.14' not found (required by /data/jjns/UEISecu ...
Linux常用命令（转载自大牛笔记 --- http://www.weixuehao.com）
Linux简介及Ubuntu安装常见指令系统管理命令打包压缩相关命令关机/重启机器 Linux管道 Linux软件包管理 vim使用用户及用户组管理文件权限管理大牛笔记-www.weix ...
树形DP新识
HihoCoder: 1041(点) 1063(边) 1035(边) HDU1520 (签到) HDU2415(emm) 目前我遇到的树形DP有两类: ∂:点处理,大概就是点的乱搞,比如找一些点,这些 ...

Python库-BeautifulSoup

Python库-BeautifulSoup的更多相关文章

随机推荐

热门专题