BeautifulSoup4的使用
一、介绍
Beautiful Soup 主要是用来解析提取 HTML 和 XML 文件中的数据。
现在官网推荐使用 Beautiful Soup 4 ,已经被移植到了BS4中。
安装 Beautiful Soup:pip instal beautifulsoup4
使用格式:
实例化 Beautifulsoup 传入被 解析的 HTML 文档内容和解析器,得到一个对象。
from bs4 import Beautifulsoup
soup = Beautifulsoup(html_doc, 'html.parser')
# 参数:
-html_doc:被解析的html文档内容
-html.parser:解析器
解析器:
| 解析器 | 使用方法 | 优势 | 劣势 |
|---|---|---|---|
| Python标准库 | BeautifulSoup(markup, "html.parser") |
Python的内置标准库执行速度适中文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
| lxml HTML 解析器 | BeautifulSoup(markup, "lxml") |
速度快文档容错能力强 | 需要安装C语言库 |
| lxml XML 解析器 | BeautifulSoup(markup, ["lxml", "xml"])``BeautifulSoup(markup, "xml") |
速度快唯一支持XML的解析器 | 需要安装C语言库 |
| html5lib | BeautifulSoup(markup, "html5lib") |
最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 | 速度慢不依赖外部扩展 |
二、遍历文档树
遍历文档树就是直接通过标签名字选择,特点是选择速度快,但如果存在多个相同的标签则只能返回第一个。
用法:
from bs4 import Beautifulsoup
soup = Beautifulsoup(html_doc, 'html.parser')
对象 = soup.body.a # 查找最开始第一个body标签下的第一个a标签
对象.name # 获取标签的名字
对象.attrs # 获取标签的所有属性
对象.get(属性名) # 获取标签指定属性
对象.text # 获取标签的文本内容(子子孙孙都拼接在一起的)
对象.get_text() # 和上面一样
对象.string # 当前标签下有文本才取出来,否则全是None
对象.strings # 子子孙孙的内容都放大生成器中
三、搜索文档树
搜索文档树是通过主要的两个方法 find() 和 find_all() 去文档中查找指定标签。
五种过滤器
1、字符串:
from bs4 import Beautifulsoup
soup = Beautifulsoup(html_doc, 'html.parser')
soup.find_all('a') # 查找所有的a标签
2、正则表达式
import re
soup.find_all(re.compile('^b')) # 查找出所有以b开头的标签
3、列表
soup.find_all(['a', 'b']) # 找到所有的a标签和b标签
4、True/False
soup.find_all(name=True) # 匹配有name属性的标签
5、方法
如果没有合适的过滤器,就可以定义一个方法只接收一个元素参数,返回 True 表示匹配到并找到,否则 False
# 查找有类属性,没有id属性的标签
def fun(tag):
return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(fun)
CSS选择器
使用方法和CSS选择器一样,用css选择器的格式去找标签
格式:
soup.select('css选择器') # 返回列表
'''
#id
.class
#id a ——>匹配对应id下的所有a标签(子子孙孙)
#id>a ——>匹配对应id下的直接子节点,子标签
'''
BeautifulSoup4的使用的更多相关文章
- 爬虫笔记(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述 如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...
- 使用pip安装BeautifulSoup4模块
1.测试是否安装了BeautifulSoup4模块 import bs4 print bs4 执行报错说明没有安装该模块 Traceback (most recent call last): File ...
- python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
- windows下安装beautifulsoup4
方法一: pip install beautifulsoup4 方法二: 在官网下载安装包后,放在python目录下--运行cmd--进入bs4安装包路径--输入setup.py install 测试 ...
- Python3利用BeautifulSoup4批量抓取站点图片的代码
边学边写代码,记录下来.这段代码用于批量抓取主站下所有子网页中符合特定尺寸要求的的图片文件,支持中断. 原理很简单:使用BeautifulSoup4分析网页,获取网页<a/>和<im ...
- python BeautifulSoup4
source form http://www.bkjia.com/ASPjc/908009.html 昨天把传说中的BeautifulSoup4装上了,还没有装好的童鞋,请看本人的上一篇博客: Py ...
- 安装beautifulsoup4
python scripts下 pip install beautifulsoup4
- Python: 安装BeautifulSoup4
python3.4.3 安装BeautifulSoup4: 使用pip install 安装: 在命令行cmd之后输入,pip install BeautifulSoup4 BeautifulSoup ...
- Python BeautifulSoup4 使用指南
前言: 昨天把传说中的BeautifulSoup4装上了,还没有装好的童鞋,请看本人的上一篇博客: Python3 Win7安装 BeautifulSoup,依照里面简单的步骤就能够把Beautifu ...
- 【安装】beautifulsoup4—美丽汤的安装
beautifulsoup俗称美丽汤,是用来爬虫用的,大家可以到这个网址去下载.注意,要根据对应的python版本 来下载. 下载传送: https://pypi.python.org/pypi/be ...
随机推荐
- Source not found for GeneratedMethodAccessor127.invoke(Object, Object[]) line: not available
报错:Source not found for GeneratedMethodAccessor127.invoke(Object, Object[]) line: not available 我在使用 ...
- 职场人都该了解<荷花定律>
先看再点赞,给自己一点思考的时间,如果对自己有帮助,微信搜索[程序职场]关注这个执着的职场程序员.我有什么:职场规划指导,技能提升方法,讲不完的职场故事,个人成长经验. 荷花定律 ,听起来很新奇的一个 ...
- flask的常规使用二
一.路由(router) 路由指定了url 到函数之间的一个映射关系. url ---> flask框架拿到url 的路径部分和路由中的内容进行匹配,如果匹配成功了则执行对应的函数.如果没有找到 ...
- GitHub 多人协作开发 三种方式(转)
一.Fork 方式 网上介绍比较多的方式(比较大型的开源项目,比如cocos2d-x) 开发者 fork 自己生成一个独立的分支,跟主分支完全独立,pull代码后,项目维护者可根据代码质量决定是否me ...
- Linux SecureCRT 终端连接密钥交换失败错误
1.故障现象: 服务器升级OpenSSH和OpenSSL后,SecureCRT无法SSH登录(CRT7.0以上版本可以正常登陆,以下版本报截图错误),但是Putty等工具可以正常登录: 报错如下: S ...
- Django基础-02篇 Models的属性与字段
1.models字段类型 AutoField():一个IntegerField,根据可用ID自动递增.如果没指定主键,就创建它自动设置为主键. IntegerField():一个整数: FloatFi ...
- 简单梳理 ES6 函数
箭头函数 箭头函数提供了一种更加简洁的函数书写方式.基本语法是 参数 => 函数体 基本用法: var f = v => v; //等价于 var f = function(a){ ret ...
- R语言客户端RStudio快捷键大全
Console Description Windows & Linux Mac 将光标定位到控制台 Ctrl+2 Ctrl+2 清空控制台 Ctrl+L Command+L 将光标定位到行首 ...
- 【剑指offer】28. 对称的二叉树
剑指 Offer 28. 对称的二叉树 知识点:二叉树:递归 题目描述 请实现一个函数,用来判断一棵二叉树是不是对称的.如果一棵二叉树和它的镜像一样,那么它是对称的. 示例 输入:root = [1, ...
- [noip6]模板
平衡树好题啊 现在暂时还不知道用普通线段树该咋做.... 刚刚做完 二逼平衡树,感觉自己的 \(splay\) 水平有了很大很大的长进,然鹅.... 这题又给我当头一棒.... 然后就一下午出去了但总 ...