爬虫五 Beautifulsoup模块详细

一、基本使用

from bs4 import BeautifulSoup

htmlCharset = "GB2312"

soup=BeautifulSoup(html_doc,'lxml', fromEncoding=htmlCharset) #具有容错功能,指定编码

res=soup.prettify() #处理好缩进，结构化显示

一、标签选择器

print(soup.p) #存在多个相同的标签则只返回第一个

print(soup.a) #存在多个相同的标签则只返回第一个

print(soup.p.name)#获取标签的名称

print(soup.p.attrs)#获取标签的属性

print(soup.p.string)#获取表的内容

print(soup.head.title.string)#嵌套选择

print(soup.body.a.string)#嵌套选择
print(soup.p.contents) #p下所有子节点 
print(soup.p.children) #得到一个迭代器,包含p下所有子节点 
print(soup.p.descendants) #获取子孙节点,p下所有的标签都会选择出来 
print(soup.a.parent) #获取a标签的父节点 
print(soup.a.parents) #找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲.
print(soup.a.next_siblings) #得到生成器对象,获取标签下面的兄弟
print(soup.a.previous_siblings) #得到生成器对象获取标签前面的兄弟

二、标准选择器

　　格式:find_all(name,attrs,recursive,text,**kwargs) 即find_all(标签名称,标签属性,嵌套查找,文本查找,**kwargs)

1、按照标签名查找

print(soup.find_all('a',id='link3',attrs={'class':"sister"}))

print(soup.find_all('a')[0].find('span')) #嵌套查找

#2、按照属性查找

# print(soup.p.find_all(attrs={'id':'link1'})) #等同于print(soup.find_all(id='link1'))

# print(soup.p.find_all(attrs={'class':'sister'}))

# print(soup.find_all(class_='sister'))

#3、按照文本内容查找

print(soup.p.find_all(text="The Dormouse's story")) # 按照完整内容匹配（是==而不是in）,得到的结果也是内容

4、按正则表达式查找

 soup.findAll(re.compile('^b'))#默认已导入re本语句会查找所有b开头的标签，例如：body，b

5、按照列表查找
 soup.findAll(['p','title'])#传入列表时，BeautifulSoup会将所有与列表中任一匹配的元素返回。

4、find和find_all的异同
　　1、find()相当于find_all()中limit=1的时候，而.limit参数是用于限制返回搜索的结果数，当搜索的达到limit限制时，就停止搜索返回搜索结果。
　　2、find()返回的是结果，find_all()返回的是一个列表
　　3、两者的使用格式都相同

总结：
　　 soup.find_all(href=re.compile('baidu'))#href包含‘href’的tag 
　　 soup.find_all(href=re.compile('baidu'),id='box1)#传入多个参数，找出同时满足两个条件的tag 
 　　soup.find_all(class_='myclass')#找出class值为myclass的tag，注意下划线不能少 
　　 soup.findAll(attrs={'class':'myclass','id'='box'})#特殊的参数可以定义字典参数来查找。查找多个参数时，也可以用此方法

　　　　如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,
　　　　如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性。
　　　当想用class的时候，由于class是python的关键词，不能直接用，可以用class_代替class

五 CSS选择器

　　1、CSS选择器

print(soup.p.select('.sister'))    #

print(soup.select('.sister span'))

print(soup.select('#link1'))

print(soup.select('#link1 span'))

print(soup.select('#list-2 .element.xxx'))

print(soup.select('#list-2')[0].select('.element')) #可以一直select,但其实没必要,一条select就可以了，嵌套查找

print(soup.select('#list-2 h1')[0].attrs)# 获取属性

print(soup.select('#list-2 h1')[0].get_text())# 获取内容
soup.select('.myclass #box')#后代查找

soup.select('head>title')#子查找

soup.select('div+p')#相邻兄弟查找

soup.select('div~p’)#后续兄弟查找
soup.select('.myclass a[id="box"]') #同时还可以加入属性查找。
select()方法返回的是列表形式。

爬虫五 Beautifulsoup模块详细的更多相关文章

爬虫五 Beautifulsoup模块
一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python网络爬虫之BeautifulSoup模块
一.介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮 ...
爬虫利器BeautifulSoup模块使用
一.简介 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,同时应用场景也是非常丰富,你可以使用 ...
爬虫四 selenium模块详细参数
selenium元素定位方法一.访问页面并获取网页html from selenium import webdriver browser = webdriver.Chrome() browser.g ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...

随机推荐

142. Linked List Cycle II【easy】
142. Linked List Cycle II[easy] Given a linked list, return the node where the cycle begins. If ther ...
bwlabel
bwlabel是用来标记二维的二值图像中的连通组的,简言之,就是黑背景下面有多少白的块,也就是从黑背景甄别白块块的. L = bwlabel(BW, n) returns a matrix L, of ...
nginx正则说明
nginx正则说明分类: nginx -- : 11758人阅读评论() 收藏举报 nginx正则表达式firefox ^~ 标识符后面跟一个字符串.Nginx将在这个字符串匹配后停止进行正则表 ...
Mysql 5.7.24 解压版安装步骤
1.设置 MYSQL_HOME 变量(在mysql解压根目录下) 例如:C:\Program Files\mysql-5.7.24 2.系统path 变量最后面增加 %MYSQL_HOME%\bin ...
Idea 2017的激活方式
https://blog.csdn.net/wangyuanjun008/article/details/79233491
工业控制系统PLC、DCS、ESD
PLC:可编程逻辑控制系统.PLC是一种专为在工业环境应用而设计的数字运算电子系统. DCS:集散控制系统. ESD:紧急停车系统.
driver基础
驱动测试时,linux驱动常以模块方式插入内核.应包含头文件:linux/kernel.h,linux/module.h 设备驱动的一般结构:Soc(主芯片->设备控制器->外设引脚)-- ...
Gold Balanced Lineup - poj 3274 (hash)
这题,看到别人的解题报告做出来的,分析: 大概意思就是: 数组sum[i][j]表示从第1到第i头cow属性j的出现次数. 所以题目要求等价为: 求满足 sum[i][0]-sum[j][0]=sum ...
MAC信息摘要
MAC(Message Authentication Code ,消息认证码算法)是含有密钥散列函数算法,兼容MD和SHA算法的特性,并在此基础上加入了密钥.因此,MAC也称为HMAC. ...
Spring4 MVC+Hibernate4 Many-to-many连接表+MySQL+Maven实例
这篇文章显示 Hibernate 的多对多实例,在 Spring MVC CRUD Web应用程序中连接表.我们将同时讨论管理多对多关系在视图和后端. 我们将使用应用程序的Web界面创建,更新,删除和 ...

爬虫五 Beautifulsoup模块详细

五 CSS选择器

1、CSS选择器

爬虫五 Beautifulsoup模块详细的更多相关文章

随机推荐

热门专题

　　1、CSS选择器