BeautifulSoup模块的常用方法小结

Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

 url = "http://desk.zol.com.cn/"

 request = requests.get(url)

 html = request.content

 soup = BeautifulSoup(html, "html.parser", from_encoding="utf-8")

一.解析器：
1.BeautifulSoup(markup, "html.parser")
2.BeautifulSoup(markup, "lxml")
3.BeautifulSoup(markup, "xml")
4.BeautifulSoup(markup, "html5lib")

二.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
　　Tag , NavigableString , BeautifulSoup , Comment .

1.Tag 标签:
任何存在于HTML语法中的标签都可以用soup.<tag>访问获得。
当HTML文档中存在多个相同<tag>对应内容时，soup.<tag>返回第一个。
例如，

soup.a ---> 返回<a>标签的内容；
      soup.a.name --> 返回<a>标签的名字；
      soup.a.parent.name --> 返回<a>标签上一层的标签名字；
      soup.a.parent.parent.name

soup.a.attrs --> 返回<a>标签的所有属性；
soup.a.attrs['class'] --> 返回<a>标签的class属性；

soup.a.string --> 返回<a>标签中的非属性内容(也就是<>...</>中的内容)；只能获取一个！

soup.get_text() --> 获取所有内容；获取标签下所有的文字内容！ soup.get_text(" ", strip=True)可以这样去除空白行；

soup.strings --> 如果tag中包含多个字符串,可以使用 .strings 来循环获取;

soup.stripped_strings --> soup.strings输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容;

三.基于bs4库的HTML内容遍历方法
      soup.contents
      soup.a.contents --> 将<a>标签所有子节点存入列表；
      soup.a.children --> 与contents类似，但用于循环遍历子节点；
      soup.a.descendants --> 用于循环遍历子孙节点；
注意：BeautifulSoup 对象本身一定会包含子节点,也就是说<html>标签也是 BeautifulSoup 对象的子节点！

soup.prettify() --> 让HTML内容更加“友好”的显示，prettify()为HTML文本<>及其内容增加更加'\n'。

四.信息提取
      soup.find_all(name,attrs,recursive,string,**kwargs)
      　　name:对标签名称的检索；
      　　attrs:对标签属性值的检索；
      　　recursive:是否对子孙全部检索，默认为True;
      　　string: <>...</>中字符串区域的检索。

例如，soup.find_all('a')
soup.find_all(['a','b'])

注意：find_all()中可以使用正则表达式来检索特定内容！
soup.find_all(re.compile(r'^a'))

例一：

 import requests

 from bs4 import BeautifulSoup

 request = requests.get("http://www.163hnzk.com/index_pc.php")

 html = request.content

 soup = BeautifulSoup(html, "html.parser", from_encoding="utf-8")

 spans = soup.find_all(name='span', attrs={'class': 'newstitle'})

 hrefs = []

 for href in spans:

     hrefs.append(href.a.attrs['href'])

 for url in hrefs:

     # 因为url含有特殊字符不能创建文件，所以split去掉特殊字符

     with open("E:\%s" % url.split('?')[1], "wb") as f:

         # 'wb'所以要用content，‘w’用text

         f.write(requests.get("http://www.163hnzk.com/"+url).content)

例二：

 import requests

 from bs4 import BeautifulSoup

 import pandas as pd

 #request函数用来解析页面，获取所需内容

 def request(number):

     header={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'}

     html = requests.get("https://hr.tencent.com/position.php?&start="+str(number), headers=header).text

     soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')

     evens = soup.find_all(name='tr', attrs='even')

     odds = soup.find_all(name='tr', attrs='odd')

     trs = evens+odds

     for tr in trs:

         dct={}

         dct["职位名称"]=tr.select('td a')[0].get_text()

         dct["职位类别"]=tr.select('td')[1].get_text()

         dct["招聘人数"]=tr.select('td')[2].get_text()

         dct["工作地点"]=tr.select('td')[3].get_text()

         dct["发布时间"]=tr.select('td')[4].get_text()

         dct["链接地址"]='http://hr.tencent.com/'+tr.select('td a')[0].attrs['href']

         lst.append(dct)

 #使用pandas保存为excel文件

 def read_write(lst):

     with open(r'E:\zhaopin.csv', 'w', encoding='utf-8') as f:

         #字典列表可作为输入数据传递以创建数据帧(DataFrame),字典键默认为列名。

         datafram = pd.DataFrame(lst)

         datafram.to_csv(r'E:\zhaopin.csv', index=False)

 if __name__=="__main__":

     number = 0

     #lst用来保存抓取的信息

     lst=[]

     while True:

         #只抓取前5页的内容

         if number < 50:

             request(number)

             number = number+10

         else:

             break

     read_write(lst)

结果：

传送门--Beautifulsoup官方文档

BeautifulSoup模块的常用方法小结的更多相关文章

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...
unittest模块的常用方法：
unittest模块的常用方法: assertEqual(a, b) a == b assertNotEqual(a, b) a != b assertTrue(x) bool ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
requsets模块和beautifulsoup模块
2.requests模块方法 requests是基于Python开发的HTTP库,使用Requests可以轻而易举的完成浏览器可有的任何操作. request.get() request.post() ...
BeautifulSoup 模块详解
BeautifulSoup 模块详解 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HT ...
03 解析库之Beautifulsoup模块
Beautifulsoup模块一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 ...
python中BeautifulSoup模块
BeautifulSoup模块是干嘛的? 答:通过html标签去快速匹配标签中的内容.效率相对比正则会好的多.效率跟xpath模块应该差不多. 一:解析器: BeautifulSoup(html,&q ...

随机推荐

ZTUnity Profiler概述及Profiler window 说明
转贴链接:https://www.jianshu.com/p/ca2ee8a51754
文件读取(filestream)
在stream中已经介绍过,文件读取应用filestream,其是以字节为单位读取文件的.在操作中,当应用filestream创建文件流,读取时应先定义一个字节数组,在转化成char类型,最后转化成s ...
Mybaits 源码解析（六）----- 全网最详细：Select 语句的执行过程分析（上篇）（Mapper方法是如何调用到XML中的SQL的？）
上一篇我们分析了Mapper接口代理类的生成,本篇接着分析是如何调用到XML中的SQL 我们回顾一下MapperMethod 的execute方法 public Object execute(SqlS ...
docker安装sshd
基础镜像: ubuntu:14.04 启动并安装sshd //启动 docker run -it ubuntu:14.04 /bin/bash //更新apt-get apt-get update / ...
git出现Your branch and 'origin/master' have diverged解决方法
如果不需要保留本地的修改,只要执行下面两步:git fetch origingit reset --hard origin/master 当我们在本地提交到远程仓库的时候,如果遇到上述问题,我们可以首 ...
Vue---mock.js 使用
mockjs 概述在我们的生产实际中,后端的接口往往是较晚才会出来,并且还要写接口文档,于是我们的前端的许多开发都要等到接口给我们才能进行,这样对于我们前端来说显得十分的被动,于是有没有可以制造假数 ...
Java8系列 (六) 新的日期和时间API
概述在Java8之前, 我们一般都是使用 SimpleDateFormat 来解析和格式化日期时间, 但它是线程不安全的. @Test public void test() { SimpleDate ...
Elastic search集群新增节点（同一个集群，同一台物理机，基于ES 7.4）
一开始,在电脑上同一个集群新增节点(node)怎么试也不成功,官网guide又语焉不详?集群健康值yellow(表示主分片全部可用,部分复制分片不可用) 最后,在stackoverflow上找到了答案 ...
中级前端必备知识点（2.5w+月薪）进阶 (分享知乎 : 平酱的填坑札记关注专栏用户:安大虎)
前端已经不再是5年前刚开始火爆时候的那种html+css+js+jquery的趋势了,现在需要你完全了解前端开发的同时,还要具备将上线.持续化.闭环.自动化.语义化.封装......等概念熟练运用到工 ...
Sublime text3配置C++环境
前言传说sublime是全球最好的编辑器,可是只是编辑器啊!!!如果要运行,对于我们这些蒟蒻来说,不得不去使用DEV_C++.我们总是幻想能让sublime变成一个轻量级IDE,那该多好啊!!! 那 ...

BeautifulSoup模块的常用方法小结

BeautifulSoup模块的常用方法小结的更多相关文章

随机推荐

热门专题