BeautifulSoup的find()和findAll()

BeautifulSoup的提供了两个超级好用的方法（可能是你用bs方法中最常用的）。借助这两个函数，你可以通过表现的不同属性轻松过滤HTML（XML）文件,查找需要的标签组或单个标签。

首先find(),findAll()是当有了bs对象之后，获取标签组或者单个标签的函数。find()找到第一个满足条件的标签就返回，findAll()找到所有满足条件的标签返回。

看一下两个函数的参数,findAll多了一个limit参数。 #参数不是每次用的时候需要把所有参数都要写出来

findAll(tag,atributes,recursive,text,limit,keywords)

find(tag,atributes,recursive,text,keywords)

实例中多用findAll()函数，因为find()函数只返回一个，没有代表性。

①参数tag，可以使用参数tag表明需要查找的标签类型，tag可以是多个：

.findAll({'h1'}) #返回h1标签列表

.findAll({'h1','h2','h3'}) #返回h1-h3标题标签列表

.findAll({'h1','h2','h3','h4','h5','h6','h7'}) #返回所有标题标签的列表

②参数attribute，使用标签内的若干属性对应的属性值进行标签查找，属性值可以是多个

.findAll('span',{'class':{'green','red'}})  #返回class属性为red和green的span标签列表

③参数recursive，是否使用递归方法遍历每一个子标签，默认是开启，True。如果设置为False，findAll()只查找文档的一级标签。一般使用中，不用去动这个参数

④参数text，根据标签的文本内容去查找标签列表，通常配合正则表达式使用

nameList = bsObj.findAll(text='the prince') #匹配所有标签文本内容为‘the prince’的标签列表

nameList = bsObj.findAll(text=re.compile('the*')) #匹配所有标签文本内容为‘the’开头的标签列表，使用了正则表达式re，正则表达式在此文中不做讲解

⑤参数limit，范围限制参数，显然只能用于findAll()函数。就是限定返回的个数，比如要抽取多少个标签信息做样本之类的

⑥参数keyword，标签内指定属性的标签列表#与attribute参数相似，有一个例外就是用class属性查找标签的时候，直接findAll（class=‘green’）会报错，因为class是保留字

bsObj.findAll(id='text')

bsObj.findAll(class='text')  #会报错
bsObj.findAll（class_='text'）解决方案

BeautifulSoup的find()和findAll()的更多相关文章

python学习之----BeautifulSoup的find()和findAll()及四大对象
BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...
Python中BeautifulSoup中对HTML标签的提取
一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: 'NoneType' object is not callable 返 ...
BeautifulSoup爬网页图片
#-*- coding: utf-8 -*- import urllib2 import urllib import os from BeautifulSoup import BeautifulSou ...
使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python # -*-coding:utf-8-*- import urllib from bs4 import BeautifulSoup response = urlli ...
Python实例---beautifulsoup小Demo
豆瓣 # coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen( ...
【Python学习】使用BeautifulSoup解析HTML
对于一个最简单的爬虫结构的代码是这样的. 也就是抓取出整个页面,然后创建一个BeautifulSoup对象. from urllib.request import urlopen from bs4 i ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
BeautifulSoup 爬虫
一安装BeautifulSoup 安装Python的包管理器pip 然后运行 $pip3 install beautifulsoup 在终端里导入它测试下是否安装成功 >>>fro ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

随机推荐

buglly热更新集成遇到的那些坑
首先说明使用热修复的意义,那就是你的apk包发出去了,万一发生了紧急异常需要修复,怎么办?这时候再发包上市场审核,也是有点慢了吧?而且错误发生在apk中,无法通过后台接口修复,这时候你就需要一个强大的 ...
hdu1829A Bug's Life(种类并查集)
传送门关键在于到根节点的距离,如果两个点到根节点的距离相等,那么他们性别肯定就一样(因为前面如果没有特殊情况,两个点就是一男一女的).一旦遇到性别一样的,就说明找到了可疑的 #include< ...
[学习笔记]SiftGPU入门
当有读者看到我这篇SiftGPU入门的学习笔记时,相信你已经读过了高博那篇<SLAM拾萃:SiftGPU>,那篇文章写于16年,已经过去两年的时间.在我尝试配置SiftGPU的环境时,遇到 ...
Linux常用压缩解压命令
tar命令解包:tar zxvf FileName.tar 打包:tar czvf FileName.tar DirName gz命令解压1:gunzip FileName.gz 解压2:gzip ...
Lwip：原生态的Linux socket应用如何移植到Lwip上
lwIP - A Lightweight TCP/IP stack 在上一篇中,我们了解到在OpenFastPath上如何移植原生态的Linux Socket应用程序,那么,对于另外一个老牌的小型TC ...
从零系列－－node爬虫利用进程池写数据
1.主进程 const http = require('http'); const fs = require('fs'); const cheerio = require('cheerio'); co ...
Codeforces1101 | EducationalRound58 | 瞎讲报告
目录 Educational Codeforces Round 58 (Rated for Div. 2) A. Minimum Integer B. Accordion C. Division an ...
Ubuntu16.04Server版离线安装Nginx1.8.1+Mysql5.7.23+Python3.6.2
nginx1.8.1 1.安装前准备工作 1.1.检查系统版本,确认源码编译所依赖的环境,提前下载好压缩包. 整个环境都是使用root权限安装,系统版本为server版的ubuntu16.04.4 r ...
vim 多个文件切换：b 命令
MiniBufExplorer插件的使用博客分类: vim vimMiniBufExplorer 快速浏览和操作Buffer -- 插件: MiniBufExplorer 下载地址 [http:// ...
查询数据库时mapper报错:It's likely that neither a Result Type nor a Result Map was specified.
因为mapper.xml里把resultType写成了parameterType

BeautifulSoup的find()和findAll()

BeautifulSoup的find()和findAll()的更多相关文章

随机推荐

热门专题