BeautifulSoup的find()和findAll()

BeautifulSoup的提供了两个超级好用的方法（可能是你用bs方法中最常用的）。借助这两个函数，你可以通过表现的不同属性轻松过滤HTML（XML）文件,查找需要的标签组或单个标签。

首先find(),findAll()是当有了bs对象之后，获取标签组或者单个标签的函数。find()找到第一个满足条件的标签就返回，findAll()找到所有满足条件的标签返回。

看一下两个函数的参数,findAll多了一个limit参数。 #参数不是每次用的时候需要把所有参数都要写出来

findAll(tag,atributes,recursive,text,limit,keywords)

find(tag,atributes,recursive,text,keywords)

实例中多用findAll()函数，因为find()函数只返回一个，没有代表性。

①参数tag，可以使用参数tag表明需要查找的标签类型，tag可以是多个：

.findAll({'h1'}) #返回h1标签列表

.findAll({'h1','h2','h3'}) #返回h1-h3标题标签列表

.findAll({'h1','h2','h3','h4','h5','h6','h7'}) #返回所有标题标签的列表

②参数attribute，使用标签内的若干属性对应的属性值进行标签查找，属性值可以是多个

.findAll('span',{'class':{'green','red'}})  #返回class属性为red和green的span标签列表

③参数recursive，是否使用递归方法遍历每一个子标签，默认是开启，True。如果设置为False，findAll()只查找文档的一级标签。一般使用中，不用去动这个参数

④参数text，根据标签的文本内容去查找标签列表，通常配合正则表达式使用

nameList = bsObj.findAll(text='the prince') #匹配所有标签文本内容为‘the prince’的标签列表

nameList = bsObj.findAll(text=re.compile('the*')) #匹配所有标签文本内容为‘the’开头的标签列表，使用了正则表达式re，正则表达式在此文中不做讲解

⑤参数limit，范围限制参数，显然只能用于findAll()函数。就是限定返回的个数，比如要抽取多少个标签信息做样本之类的

⑥参数keyword，标签内指定属性的标签列表#与attribute参数相似，有一个例外就是用class属性查找标签的时候，直接findAll（class=‘green’）会报错，因为class是保留字

bsObj.findAll(id='text')

bsObj.findAll(class='text')  #会报错
bsObj.findAll（class_='text'）解决方案

BeautifulSoup的find()和findAll()的更多相关文章

python学习之----BeautifulSoup的find()和findAll()及四大对象
BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...
Python中BeautifulSoup中对HTML标签的提取
一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: 'NoneType' object is not callable 返 ...
BeautifulSoup爬网页图片
#-*- coding: utf-8 -*- import urllib2 import urllib import os from BeautifulSoup import BeautifulSou ...
使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python # -*-coding:utf-8-*- import urllib from bs4 import BeautifulSoup response = urlli ...
Python实例---beautifulsoup小Demo
豆瓣 # coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen( ...
【Python学习】使用BeautifulSoup解析HTML
对于一个最简单的爬虫结构的代码是这样的. 也就是抓取出整个页面,然后创建一个BeautifulSoup对象. from urllib.request import urlopen from bs4 i ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
BeautifulSoup 爬虫
一安装BeautifulSoup 安装Python的包管理器pip 然后运行 $pip3 install beautifulsoup 在终端里导入它测试下是否安装成功 >>>fro ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

随机推荐

实现activity跳转动画的若干种方式
第一种: (使用overridePendingTransition方法实现Activity跳转动画) 在Activity中代码如下 /** * 点击按钮实现跳转逻辑 */ button1.setOnC ...
4星|《财经》2018年第10期：远程视界自我定位为“专科远程医疗联合体O2O平台”，主要盈利模式就是做融资租赁
<财经>2018年第10期总第527期旬刊本期主要内容:做远程医疗资金链断裂:人工智能时代有可能让刘易斯观点论失败:小米的盈利模式刨析:陆奇在百度的改革.其中1.4都成了朋友圈热文. ...
ngxin 添加模块
if test -n "$NGX_ADDONS"; then echo configuring additional modules for ngx_addon_dir in $N ...
PHP处理表单数据的一个安全回顾（记录教训）
曾经看过一个安全文章中写过这么一条表单输入数据要做 htmlspecialchars_decode 表单输出数据要做htmlspecialchars 当时还不是很理解为什么,自己也没遇到问题,所以就 ...
SQL IF while 游标
-- if语句使用示例 declare @a int set @a=1 begin print @a =@a+1 end else begin print 'noooo' end -- while语句 ...
BugPhobia贡献篇章：团队贡献分值与转会确定
0x01 :无言 0x02 :团队贡献分说明 (1202)冯志睿 54 (1156)李入云 43 (1188)李云涛 56 (1184)马腾跃 26 (1197)钱林琛 60 (1100)王鹿鸣 63 ...
Bag类课后作业
20162316 Bag课后作业下面小标题都是码云链接实现代码 import java.util.Arrays; public class Bag implements BagInterface ...
apm server
目录 1.apm的tomcat启动失败解决方法 2.apm的mysql修改root密码的方法内容: 1.apm的tomcat启动失败解决方法 APMServ5.2.6 无法启动Apache的一个问题 ...
解决Cygwin编译cocos2dx 遇到的 error: 'UINT64_C' was not declared in this scope 问题
环境工具:Win10.VS2013.cocos2d-x-2.2.6.Cygwin.ADT 问题来源:写了一个小游戏,VS2013上运行成功,就尝试着打包apk,项目导入到ADT里面,添加了cocos2 ...
Beta Scrum Day 6 — 听说
听说

BeautifulSoup的find()和findAll()

BeautifulSoup的find()和findAll()的更多相关文章

随机推荐

热门专题