python爬虫beautifulsoup4系列2

前言

本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门

一、读取HTML页面

1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件

3.用python的open函数读取这个html,如下图能正确打印出来，说明读取成功了

二、解析器：html.parser

1.用BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄

2.如果我们调用BeautifulSoup这个类的时候，不带"html.parser"参数，这时候会有个waring的，下图红色框框区域给出了建议。

3.html.parser这个是python库里面自带的解析器，无需安装。

4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的）

三、对象的种类

1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag : 标签对象，如：yoyoketang，这就是一个标签

NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketa

BeautifulSoup ：就是整个html对象

Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

2.弄清楚了这四个对象，后面所有的操作但是基于这四个（其实最后面一个comment可以忽略，几乎用不到）

四、Tag对象

1.html里面识别一个tag，其实一般像这种：

yoyoketang

yoyoketang

<head><title>yoyo ketang</title></head>

以上这些都是tag,很明显都是以<xx 开头</xx> 结尾这种，就是一个完整的tag

2.通过标签的名称，来获取tag对象

3.如果有多个相同的标签名称，返回的是第一个

python爬虫beautifulsoup4系列2的更多相关文章

python爬虫beautifulsoup4系列1
前言以博客园为例,爬取我的博客上首页的发布时间.标题.摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能. 一.安装 1.打开cmd用pip在线安装beauti ...
python爬虫beautifulsoup4系列2【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言本篇详细介绍beautifulsoup4的功能,从 ...
python爬虫beautifulsoup4系列1【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言以博客园为例,爬取我的博客上首页的发布时间.标题. ...
python爬虫beautifulsoup4系列4-子节点
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
python爬虫beautifulsoup4系列4-子节点【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言很多时候我们无法直接定位到某个元素,我们可以先定位 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...
Python爬虫学习系列教程
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家. 来源:http://cuiqingcai.com/1052.html 一.Python入门 1. Pyth ...

随机推荐

java枚举学习入门
一.前言在java编程过程中,我们通常需要定义一些固定数量的常量,在jdk1.5以前,通常的做法是定义一个静态常量类,但自jdk1.5后,java引入了枚举(关键字enum,全称为 enumera ...
SPH算法（求最小代价树）
一.sph算法简介 1.最小代价树算法 SPH算法也叫做MPH( minimum path heuristic)算法, 用于构造时延约束最算法小代价组播树. 该算法中每个目的结点通过与当前组播树有最 ...
U-Mail详解邮件营销优势及应用领域
最近频频有营销人员向U-Mail小编咨询:邮件营销到底有什么好处呢?与此同时,还有不少人对邮件营销存在一定的误解:邮件营销是不是只给潜在消费者发送邮件推广商品呢?其实邮件群发的应用面非常广泛,可不仅仅 ...
关于Oracle11g R2的学习笔记
进来由于工作需要开始有SQLServer向Oracle转型学习,想把学习写到这里作为记录和备忘. Oracle 11g R2下面都简称:Oracle 第一:Oracle的安装在安装过程没有 ...
多线程操作C++ STL vector出现概率coredump问题及尽量避免锁的双缓冲队列
多线程操作全局变量,必须考虑同步问题,否则可能出现数据不一致, 甚至触发coredump. 前段时间, 遇到一个多线程操作了全局的vector的问题, 程序崩了.场景是这样的:某全局配置参数保存在一 ...
Linux 下安装配置 JDK7 配置环境(debian 7)
自从从Oracle收购Sun近三年来,已经有很多变化.早在8月,甲骨文将“Operating System Distributor License for Java”许可证终结,这意味着第三方将不可以 ...
Golang context包解读
Context 通常被译作上下文 ,一般理解为程序单元的一个运行状态.现场.快照,而翻译中上下又很好地诠释了其本质,上下上下则是存在上下层的传递, 上会把内容传递给下 . 在Go语言中,程序 ...
如何使用正则做文本数据的清洗（附免费AI视频福利）
手工打造文本数据清洗工具作者白宁超 2019年4月30日09:43:59 前言:数据清理指删除.更正错误.不完整.格式有误或多余的数据.数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据 ...
kubernetes 安装学习
什么是Kubernetes Kubernetes是一个开源平台,用于跨主机群集自动部署,扩展和操作应用程序容器,提供以容器为中心的基础架构. 使用Kubernetes,您可以快速高效地响应客户需求: ...
php官网下载的chm手册，源码字号太小的问题解决
首先,到官方网站上下载chm格式的文档,地址如下: http://php.net/downloads.php 如图,点击荧光笔标出链接然后就可以看到各种语言版本的文档手册,可以选择中文版,并带有笔记 ...

python爬虫beautifulsoup4系列2

python爬虫beautifulsoup4系列2的更多相关文章

随机推荐

热门专题