一、BeautifulSoup库提供了一个检索的参数:

<>.find_all(name,attrs,recursive,string,**kwargs),它返回一个列表类型,存储查找的结果。它的一些对应的简写形式是:

  <tag>(...) <=> <tag>.find_all(...)

  soup.(...) <=> soup.find_all(...)

•name:按照标签名称进行检索,可以同时对多个标签名称同时检索

•attr:按照标签的属性值进行检索,可以标注为属性检索

•recursive:是否对子孙全部检索,默认为True

•string:对标签中字符串区域进行检索,<>...string...</>

 import requests
from bs4 import BeautifulSoup
import re r = requests.get('http://python123.io/ws/demo.html')
r.raise_for_status()
r.encoding = r.apparent_encoding
demo = r.text
soup = BeautifulSoup(demo,"html.parser") print(soup.find_all('a'))#按照name进行检索
print(soup.find_all(['a','b']))#同时对多个name标签进行检索
for tag in soup.find_all(re.compile('b')):#对以b开头的所有标签进行检索
print(tag.name)
print(tag) print("")
print(soup.find_all('p','course'))#按照标签里面的属性值进行检索
print(soup.find_all(id='link1'))#按照指定的属性的属性值进行检索,严格匹配
print(soup.find_all(id = re.compile('link')))#特定属性值的不严格匹配 print("")
print(soup.find_all('a',recursive = False))#不对所有子孙检索,只检索儿子节点,起点是html标签,如果返回的是空列表[],就代表a标签是在儿子标签之后的标签里面 print(soup.find_all(string = 'Basic Python'))#检索字符串,严格匹配
print(soup.find_all(string = re.compile('Python')))#不严格匹配

二、<>find_all(..)的扩展方法

方法 说明
<>.find() 搜索,只返回一个结果,字符串类型,同.find_all()参数
<>.find_parent() 在先辈中搜索,只返回一个结果,返回字符串类型,同.find()参数
<>.find_parents() 在先辈中搜索,返回列表类型,同.find_all()参数
<>.find_next_sibling() 在后续平行节点中搜索,只返回一个结果,返回字符串类型,同.find()参数
<>.find_next_siblings() 在后续平行节点中搜索,返回一个列表类型,同.find_all()参数
<>.find_previous_sibling() 在前续平行节点中搜索,只返回一个结果,返回字符串类型,同参.find()数
<>.find_previous_siblings() 在前续平行节点中搜索,返回一个列表类型,同.find_all()参数

基于BeautifulSoup库的HTML内容的查找的更多相关文章

  1. 基于bs4库的HTML内容查找方法

    一.信息提取实例 提取HTML中所有的URL链接 思路:1)搜索到所有的<a>标签 2)解析<a>标签格式,提取href后的链接内容 >>> import r ...

  2. BeautifulSoup库的安装与使用

    BeautifulSoup库的安装 Win平台:“以管理员身份运行” cmd 执行 pip install beautifulsoup4 演示HTML页面地址:http://python123.io/ ...

  3. 基于bs4库的HTML查找方法

    基于bs4库的HTML查找方法 find_all方法 <>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,内部存储查找的结 ...

  4. BeautifulSoup库的使用

    1.简介 BeautifulSoup库也是一个HTML/XML的解析器,其使用起来很简单,但是其实解析网站用xpath和re已经足矣,这个库其实很少用到.因为其占用内存资源还是比xpath更高. '' ...

  5. $python爬虫系列(2)—— requests和BeautifulSoup库的基本用法

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

  6. python之BeautifulSoup库

    1. BeautifulSoup库简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.lxml 只会局部遍历 ...

  7. [爬虫] BeautifulSoup库

    Beautiful Soup库基础知识 Beautiful Soup库是解析xml和html的功能库.html.xml大都是一对一对的标签构成,所以Beautiful Soup库是解析.遍历.维护“标 ...

  8. Python爬虫小白入门(三)BeautifulSoup库

    # 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...

  9. python网络爬虫学习笔记(二)BeautifulSoup库

    Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...

随机推荐

  1. IntelliJ IDEA生成live template(代码模板)

    IntelliJ IDEA生成live template(代码模板) 一.进入live template模板 快捷键:Ctrl+Shift+A进入Find Action,输入live template ...

  2. 向后台提交数据:通过form表单提交数据需刷新网页 但通过Ajax提交数据不用刷新网页可通过原生态Ajax或jqueryAjax。Ajax代码部分

    原生态Ajax提交表单:需要借助XMLHttpRequest对象的open,要收通过post发送请求还要setRequsetHeader,然后把数据发送给后端,代码如下 目录结构 index.py代码 ...

  3. Django的下载安装以及实现一个简单示例

    一.Django下载安装 Django下载链接 1. 下载Django: pip3 install django==1.11.9    (大的版本1.11不要错) 2.创建一个django proje ...

  4. java读写properties工具代码

    package test612; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundExc ...

  5. CSS的继承和使用方式

    CSS的继承 css的继承指的是当标签具有嵌套关系时,内部标签自动拥有外部标签的不冲突的样式的性质. 在Css中有些属性不允许继承,例如,border属性没有继承性.多边框类的属性都没有继承 ,例如, ...

  6. 「Android」消息驱动Looper和Handler类分析

    Android系统中的消息驱动工作原理: 1.有一个消息队列,可以往这个消息队列中投递消息; 2.有一个消息循环,不断的从消息队列中取得消息,然后处理. 工作流程: 1.事件源将待处理的消息加入到消息 ...

  7. AndroBench手机性能测试

    AndroBench是一个基准测试应用程序,可以衡量你的Android设备的存储性能. AndroBench提供两种方式,第一种可以快速与其他设备的存储进行比较. 第二种 SQLite可以查询数据库表 ...

  8. 巧用 即刻搜索事件 input propertychange 监听输入框字数

    实时监听输入框的字数,大于200时,不再输入. 即时搜索: propertychange(ie)和input事件(常用) input是标准的浏览器事件,一般应用于input元素,当input的valu ...

  9. Linux Xshell连接Linux服务器时报错Socket error Event: 32 Error: 10053

    问题描述 在用Xshell连接Linux服务器时,出现错误提示"Socket error Event: 32 Error: 10053. Connection closing...Socke ...

  10. ECS服务器搭建Discuz 邮箱设置,报错处理

    背景 自己想做个网站,没那么多精力,然后就看到了discuz.万网买了一个月的ecs Windows server 2008 r2 服务器,就开始着手安装环境.论坛! 建站 第一次使用discuz论坛 ...