对于一个最简单的爬虫结构的代码是这样的。

也就是抓取出整个页面，然后创建一个BeautifulSoup对象。

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")

bsObj = BeautifulSoup(html)

find()和findAll()

这两个函数非常相似，是用来通过标签的不同属性来过滤HTML页面，查找需要的标签组或单个标签的。BeautifulSoup文档里两者的定义就是这样：

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

标签参数tag

你可以传一个标签的名称或多个标签名称组成的Python列表做标签参数。比如：

bsObj.findAll({"h1","h2","h3","h4"})

属性参数attributes

它是用一个Python字典封装一个标签的若干属性和对应的属性值。比如，下面这个函数会返回HTML文档里红色和绿色两种颜色的span标签：

bsObj.finaAll("span",{"class":{"green", "red"}})

递归参数recursive

它是一个布尔变量。如果设置为True，findAll就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果设置为False，findAll就只查找文档的一级标签。默认是支持递归查找的，所以一般这个参数不需要设置。

文本参数text

它是用标签的文本去匹配，而不是用标签的属性。比如：

nameList = bsObj.findAll(text="the prince")

print(len(nameList))

范围限制参数limit

find()其实等价于findAll()的limit等于1时的情形。如果你只对网页中获取的前n项结果感兴趣，就可以设置它。

关键词参数keyword

它可以让你选择那些具有指定属性的标签。比如：

allText=bsObj.findAll(id="text")

print(allText[0].get_text())

但是，keyword偶尔会出现问题，尤其是在用class属性查找标签的时候，因为class是Python中受保护的关键字。但是可以用BeautifulSoup提供的另一种方案，在class后面增加一个下划线。

# 错误

bsObj.findAll(class="green")

# 正确

bsObj.findAll(class_="green")

bsObj.findAll("",{"class":"green"})

get_text()

get_text()会把正在处理的HTML文档中所有的标签都清楚，然后返回一个只包含文字的字符串。

通常在你准备打印、存储和操作数据时，应该最后才使用get_text()。一般情况下，你应该尽可能地保留HTML文档的标签结构。

导航树

如果需要通过标签在文档中的位置来查找标签，那么就要用到导航树（Navigating Trees）。

以虚拟的在线购物网站作为要抓取的示例网页，这个HTML页面可以映射成一棵树，如下所示：

-body

	-div.wrapper

		-h1

		-div.content

		-table#giftList

			-tr

				-th

				-th

				-th

				-th

			-tr.gift#gitf1

				-td

				-td

					-span.excitingNote

				-td

				-td

					-img

			-……其他表格行省略了……

	-div.footer

子标签与后代标签

在BeautifulSoup库里，孩子(child)和后代(descendant)有显著的不同。

子标签就是一个父标签的下一级，而后代标签是指一个父标签下面所有级别的标签。

比如，tr标签是table标签的子标签，而tr、th、td、img和span标签都是table标签的后代标签。

也就是所有的子标签都是后代标签，但不是所有的后代标签都是子标签。

如果只想找出子标签，可以使用children()函数：

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj = BeautifulSoup(html)

for child in bsObj.find("table",{"id":"giftList"}).children:

    print(child)

这段代码会打印gitfList表格中所有产品的数据行。

而如果使用的是descendants()函数就会有二十几个标签打印出来，包括img标签等。

兄弟标签

next_siblings()函数可以让收集表格数据成为简单的事情，尤其是处理带标题行的表格：

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj = BeautifulSoup(html)

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:

    print(sibling)

这段代码会打印产品列表里所有行的产品，第一行表格标题除外。因为自己不能是自己的兄弟标签，而且这个函数只调用后面的兄弟标签。

如果一组兄弟标签里的最后一个标签比较好找，也可以用previous_siblings()函数。

获取标签属性

有时候我们需要的数据在标签属性里，那么我们可以使用下面的代码获取它的全部属性：

myTag.attrs

这行代码返回的是一个Python字典对象，可以获取和操作这些属性。

比如要获取图片的资源位置src，可以这样使用：

myImgTag.attrs["src"]

【参考】

[1]《Python网络数据收集》Ryan Mitchell

【Python学习】使用BeautifulSoup解析HTML的更多相关文章

第14.12节 Python中使用BeautifulSoup解析http报文：使用select方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>和<第14.11节 Python中使用BeautifulSo ...
第14.11节 Python中使用BeautifulSoup解析http报文：使用查找方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访 ...
python学习(25) BeautifulSoup介绍和实战
BeautifulSoup是python的html解析库,处理html非常方便 BeautifulSoup 安装 pip install beautifulsoup4 BeautifulSoup 配合 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问
一. 引言在<第14.8节 Python中使用BeautifulSoup加载HTML报文>中介绍使用BeautifulSoup的安装.导入和创建对象的过程,本节介绍导入后利用Beauti ...
python学习之----BeautifulSoup的find()和findAll()及四大对象
BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...
python学习之----BeautifulSoup示例二
网络爬虫可以通过class 属性的值,轻松地区分出两种不同的标签.例如,它们可以用 BeautifulSoup 抓取网页上所有的红色文字,而绿色文字一个都不抓.因为CSS 通过属性准确地呈现网站的样 ...
python学习之----BeautifulSoup示例一
BeautifulSoup 库最常用的对象恰好就是BeautifulSoup 对象. from urllib.request import urlopen from bs4 import Beauti ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python爬虫之Beautifulsoup学习笔记
相关内容: 什么是beautifulsoup bs4的使用导入模块选择使用解析器使用标签名查找使用find\find_all查找使用select查找首发时间:2018-03-02 00:1 ...

随机推荐

Java知识点整理（三）
如何设计出高可用的分布式架构分布式架构 CDN简介分布式缓存和本地缓存区别高并发场景常用技术解决方案 JVM优化示例 Docker和JVM区别 Java开发人员需要注意的五大Docker误区 D ...
HSF源码剖析
前言 HSF是一个分布式的远程服务调用框架,其实我更喜欢把分布式几个字去掉,因为HSF本身并不是一个单独的服务(指一个进程),他是附属在你的应用里的一个组件,一个RPC组件(远程过程调用——Remot ...
CPU测试--查看cpu占用率
一.使用命令adb shell top -m 10 -s cpu(-t 显示进程名称,-s 按指定行排序,-n 在退出前刷新几次,-d 刷新间隔,-m 显示最大数量),如下图: 参数含义: PID:p ...
【uoj#244】[UER #7]短路 CDQ分治+斜率优化dp
题目描述给出 $(2n+1)\times (2n+1)$ 个点,点 $(i,j)$ 的权值为 $a[max(|i-n-1|,|j-n-1|)]$ ,找一条从 $(1,1)$ 走到 $(2n+1,2n ...
【刷题】HDU 1695 GCD
Problem Description Given 5 integers: a, b, c, d, k, you're to find x in a...b, y in c...d that GCD( ...
谷哥的小弟学前端(02)——HTML常用标签（2）
探索Android软键盘的疑难杂症深入探讨Android异步精髓Handler 详解Android主流框架不可或缺的基石站在源码的肩膀上全解Scroller工作机制 Android多分辨率适配框架 ...
【bzoj4182】shopping
Portal --> bzoj4182 Solution 感天动地..几百年没在场上写点分了的感觉== (然后就写了很久qwq) 不过感觉自己想这道题怎么颇有运气成分==大概是:诶是不是快乐 ...
框架----Django框架（基础篇）
一.基本配置一.创建django程序终端命令:django-admin startproject sitename IDE创建Django程序时,本质上都是自动执行上述命令其他常用命令: pyt ...
【线段树】【P2572】【SCOI2010】序列操作
Description lxhgww最近收到了一个01序列,序列里面包含了n个数,这些数要么是0,要么是1,现在对于这个序列有五种变换操作和询问操作: 0 a b 把[a, b]区间内的所有数全变成0 ...
shell中的引用
By francis_hao Mar 31,2018 引用,用来移除某个字符或单词对于shell的特殊含义每个元字符对于shell都有特殊含义,可分割单词,如果想使用其本身的含义就需要用到 ...

【Python学习】使用BeautifulSoup解析HTML