python爬虫（7）——BeautifulSoup

　　　　今天介绍一个非常好用的python爬虫库——beautifulsoup4。beautifulsoup4的中文文档参考网址是：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

　　　　首先使用pip安装这个库，当然还要用到lxml这个解析器，配合使用可以很方便的帮助我们处理html文档，提取所需要的信息。可以使用pip list命令查看你已经安装好的包。提醒大家注意一点！一定是pip install beautifulsoup4 ，这个4千万别忘记了，否则会出现如下报错信息：

　　　　　　print "Unit tests have failed!"

　　　　　　　　SyntaxError: Missing parentheses in call to 'print'

　　　　　　Command "python setup.py egg_info" failed with error code 1 in C:\Users\ADMINI~1\AppData\Local\Temp\pip-build-4g6q3fil\...

　　　　因为python中的print函数，在python3中是需要加括号的，所以我们可以知道报错是因为版本不兼容导致的。python3使用的beautifulsoup4，我之前安装就是出现了这个问题，好在很快发现了解决了。安装成功会出现successfully。

 C:\Users\Administrator\Desktop

 λ ipython

 Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)]

 Type 'copyright', 'credits' or 'license' for more information

 IPython 6.2.1 -- An enhanced Interactive Python. Type '?' for help.

 #导入这个包

 In [1]: from bs4 import BeautifulSoup

 In [2]: html="""\

    ...: <!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <title>我的博客(CCColby.com)</title> </head> <body>  <video width="320" height="240" controls>   <source src="m

    ...: ovie.mp4" type="video/mp4">   <source src="movie.ogg" type="video/ogg">   你的浏览器不支持 video 标签。 </video>  </body> </html>

    ...: """

 #创建对象，如果不指定解析方式，会出现警告

 In [3]: soup=BeautifulSoup(html)

 c:\users\administrator\appdata\local\programs\python\python36\lib\site-packages\bs4\__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

 The code that caused this warning is on line 193 of the file c:\users\administrator\appdata\local\programs\python\python36\lib\runpy.py. To get rid of this warning, change code that looks like this:

  BeautifulSoup(YOUR_MARKUP})

 to this:

  BeautifulSoup(YOUR_MARKUP, "lxml")

   markup_type=markup_type))

 #我们制定解析方式为'lxml'

 In [4]: soup=BeautifulSoup(html,"lxml")

 #格式化输出soup对象

 In [5]: print(soup.prettify())

 <!DOCTYPE HTML>

 <html>

  <head>

   <meta charset="utf-8"/>

   <title>

    我的博客(CCColby.com)

   </title>

  </head>

  <body>

   <video controls="" height="" width="">

    <source src="movie.mp4" type="video/mp4">

     <source src="movie.ogg" type="video/ogg">

      你的浏览器不支持 video 标签。

     </source>

    </source>

   </video>

  </body>

 </html>

　　　　beautifulsoup将复杂的HTML文档归结为一个树形结构，每个节点都是python对象。这些对象分成四种：Tag、NavigableString、BeautifulSoup、Comment。

　　　　可以利用soup加上标签名，可以轻松的获取标签内容

 In [6]: print(soup.title)

 <title>我的博客(CCColby.com)</title>

 In [7]: print(soup.head)

 <head> <meta charset="utf-8"/> <title>我的博客(CCColby.com)</title> </head>

 In [8]: print(soup.source)

 <source src="movie.mp4" type="video/mp4"> <source src="movie.ogg" type="video/ogg">   你的浏览器不支持 video 标签。 </source></source>

　　　　如果我们要获取标签内部的文字怎么办？很简单

 In [9]:  print（soup.titie.string）

 我的博客（CCColby.com）

　　　　关于beautifulsoup的遍历文档树，可以用contents方法、children方法。如果要遍历所有子节点，则用descendants属性。具体的用法在实例中学习就可以了。

　　　　搜索文档树find_all（name ,attrs,recursive,text,**kwargs）

　　　　其中name参数可以查找所有名字为name的Tag，字符串对象会被自动忽略；可以传入字符串、正则表达式（re.compile（）编译过的）、传列表。text参数是查找文档中的字符内容。

　　　　还有一种查找方法CSS选择器。

 #通过标签名查找

 print(soup.select('title'))

 #通过属性查找

 print(sou.select(a[class="name"]'))

 #以上select返回的结果都是列表形式，要用遍历输出,然后用get_text()方法来获取它的内容

 for title in soup.select('title'):

     print(title.get_text())

　　　　下一篇文章，讲一个用beautifulsoup实例来加深理解。

python爬虫（7）——BeautifulSoup的更多相关文章

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Python爬虫系列-BeautifulSoup详解
安装 pip3 install beautifulsoup4 解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,'html,parser') Pyth ...
Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
通过哪吒动漫豆瓣影评，带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...
python爬虫之BeautifulSoup
爬虫有时候写正则表达式会有假死现象就是正则表达式一直在进行死循环查找例如:https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac ...
python爬虫入门--beautifulsoup
1,beautifulsoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 2, from bs4 import Be ...

随机推荐

IDEA安装vue开发插件
前言: 开发免不了要用到开发工具,什么sublime,webstorm,idea的,现在我就说下idea开发神器下安装vue插件进行vue项目的开发吧. idea下载地址:http://www.jet ...
dedecms v5.7 图片集“图集内容”无法调用的解决办法
在dedecms的图片集模型或者基于图片集模型修改的自定义模型中内容页模板使用 {dede:field.body/} 方式来调用body字段是没有输出的(原因不明,未继续深入) 但有些时候当需要在内 ...
iOS enum 定义与使用
枚举其实很重要,特别是在应用开发初期,服务器端数据格式需要更改得情况下,枚举和宏都能是程序简洁,并且改动小. 网上有个人写的言简意赅,适合初学转自:http://blog.csdn.net/ysy4 ...
解决eclipse出现This Android SDK requires Andro...date ADT to the latest version.问题
更新完android SDK之后,eclipse出现了“This Android SDK requires Andro...date ADT to the latest version.”问题,这是因 ...
【笔记】vue-cli 开发环境中跨域连接后台api（vue-resource 跨域post 请求）
在vue-cli 项目中很多人会用到mock 数据(模拟数据),但是我觉得如果在真实的数据库交互中开发会更有安全感一些,所以查了一下百度很多人推荐的就是: 跨域! 跨域是什么概念?不同的主机名,同主机 ...
Hystrix-命令名称、分组以及线程池划分
命令名称: 1.1 以继承的方式实现Hystrix命令使用类名作为默认的命令名称,我们也可以在构造函数中通过Setter静态类来设置 1.2 为了保存每个命令分配的Setter分配,你也可以像这样缓存 ...
【转】sed 学习笔记
一 . sed 简介 1 . 功能 sed 是一种流编辑器,所谓流编辑器是指能够对来自文件或者管道的输入流进行基本的文本转换的工具,比方说查找替换删除等. 2 . 最简单的运作机制 sed ...
前端通过Nginx反向代理解决跨域问题
在前面写的一篇文章SpringMVC 跨域,我们探讨了什么是跨域问题以及SpringMVC怎么解决跨域问题,解决方式主要有如下三种方式: JSONP CORS WebSocket 可是这几种方式都是基 ...
Python selenium 一个节点两个关联input
HTML代码: 一个节点两个关联input 多出现于密码框先需要模拟点击进入第一个input,才能激活第二个input. 代码: driver.find_element_by_name('Text ...
input里面placeholder水平居中
<style type="text/css">input::-ms-input-placeholder{text-align: center;}input::-webk ...

python爬虫（7）——BeautifulSoup

python爬虫（7）——BeautifulSoup的更多相关文章

随机推荐

热门专题