python网络爬虫之beautfiulSoup

BeautifulSoup将html文档转换成一个属性结构，每个节点都是python对象。这样我们就能针对每个结点进行操作。参考如下代码

def parse_url():

    try:

        req=urllib2.Request('http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/index.shtml')

        fd=urllib2.urlopen(req)

        html=BeautifulSoup(fd)

    except urllib2.URLError,e:

        print e

BeautifulSoup中传入的就是urlopen中反馈的html网页。但是出现提示

E:\python2.7.11\python.exe E:/py_prj/test.py

E:\python2.7.11\lib\site-packages\bs4\__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 43 of the file E:/py_prj/test.py. To get rid of this warning, change code that looks like this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

这个提示的意思是没有给BeautifulSoup中传递一个解析网页的方式。有2中方式可以使用:html.parser以及lxml。这里我们先用html.parser，lxml后面再讲。代码改成如下就OK了

html=BeautifulSoup(fd,"html.parser")

在解析网页前，我们先来看几个概念，标签，属性。

比如下面的网页结构。<a href=”1.shtml”>第一节</a> 其中a就是标签，里面的href就是属性。第一节就是标签的内容

BeautifulSoup中查找属性的方法如下：

print html.meta.encode('gbk')

print html.meta.attrs

结合如下的代码，查找tag为meta的元素。并打印meta的所有属性：

得到的结果如下：

E:\python2.7.11\python.exe E:/py_prj/test.py

{u'content': u'text/html; charset=gb2312', u'http-equiv': u'Content-Type'}

如果想得到某项属性，可以按照如下的方式：

print html.meta.attrs['content'] 输出结果是text/html

如果我们想得到标签的内容也就是文本怎么办呢，比如下面的这个方式

print html.title.string.encode('gbk') .string的功能就是得到标签所对应的文本

但是上面的方法只能找出第一个满足的标签，如果网页中有多个相同名字的标签该如何区分呢，比如下面的这种场景：有多个span以及a的标签

那么就需要另外的方式来获取。如下代码用find_all的方式来获取所有标签为a的结构并打印出来

for a in html.find_all('a'):

    print a.encode('gbk')

得到的结果如下，由于太多，只列出了其中一部分。

如果想得到这些节点的内容可以用get_text()的方法。如下：

for a in html.find_all('a'):

    print a.get_text()

如果想得到这些节点的全部属性，则可以用下面的方法：

for a in html.find_all('a'):

    print a.attrs

如果想得到某个属性的值，前面的a.attrs返回的是一个字典。比如下面的要获取class属性的值，用如下的方法

for a in html.find_all('a'):

    print a.attrs['class']

find_all方法还可以给查找加限定值：比如想获取如下所示的<a href=”1.shtml”>的标签

这里第一个参数代表标签名字，第二参数代表属性名

for a in html.find_all('a',href="1.shtml"):

    print a.encode('gbk')

还可以设定多个参数查找，比如查找form这个标签

for a in html.find_all('form',method="post",target="_blank"):

    print a.encode('gbk')

当然在查找里面也可以运用正则表达式，比如re.complie(“a.*”)之类的方法

另外还可以限制查找的数目：下面的表达式就是获取前5条查找结果

for a in html.find_all('a',limit=5):

    print a.attrs['class']

find家族里面还有find_parents/find_parent查找父节点。Find_next_siblings()/find_next_sibling()查找下一个兄弟以及

find_previous_siblings()/find_previous_sibling()查找前面的兄弟节点。

python网络爬虫之beautfiulSoup的更多相关文章

关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
python 网络爬虫（二） BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python 正则表达式 (python网络爬虫)
昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...
Python网络爬虫笔记（五）：下载、分析京东P20销售数据
(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

随机推荐

mui开发app之webview是什么
WebView(网络视图)能加载显示网页,可以将其视为一个浏览器,webview被封装在html5+,plus对象中,底层由java,OC实现. 先来谈谈我对webview的理解: 使用mui开发的a ...
Linux学习之竿头直上
今天第二讲昨天我们讲解了10基础命令,今早上我继续为大家讲解10个linux常见命令今天主要讲解与网络相关的命令和软件安装的命名 NetworkManager 与rpm 在windows中我们查看网 ...
iOS-工程和工作空间、静态库和框架之间的关系
使用Xcode创建的工程Project是单独分开的,如果想要几个工程同时存在,可以通过创建工作空间Workspace.工作空间是对各工程的集合,工程文件名的后缀为.xcodeproj,工作空间文件名的 ...
windows10 建立ODBC数据源
为了使用dbExportDoc导出数据库表结构工具,需要建立windows 的ODBC源. 1.安装(如果已经安装oracle客户端则不必执行) instantclient-basic-windows ...
SpringMVC 国际化-中英文切换
项目结构 1.pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http: ...
OC中自定义构造方法
格式 -(instancetype)init(){ self=[super init] if(self){ } return self; } 自定义构造方法规范 1)一定是对象方法,以减号开头 2)返 ...
[UWP]实用的Shape指南
在UWP UI系统中,使用Shape是绘制2D图形最简单的方式,小到图标,大到图表都用到Shape的派生类,可以说有举足轻重的地位.幸运的是从Silverlight以来Shape基本没有什么大改动,简 ...
转：Linux中文显示乱码？如何设置centos显示中文
怎么设置Linux系统中文语言,这是很多小伙伴在开始使用Linux的时候,都会遇到一个问题,就是终端输入命令回显的时候中文显示乱码.出现这个情况一般是由于没有安装中文语言包,或者设置的默认语言有问题导 ...
仿中关村win8频道（win8.zol.com.cn）下的tab效果
最近觉得中关村win8频道下的那个Tab效果很好看. 一时兴起就自己做了一个.觉得还蛮不错的,特地来给大家分享一下.以下是相关的HTML页面写法: <div class="popula ...
angular.js封装的文件上传指令
今天把最近用到的东西整理一下,直接上代码,需要申请犀牛存储图片,文件 1.html div div img.img-thumbnail.center-block(ng-src="{{ltUp ...

python网络爬虫之beautfiulSoup

python网络爬虫之beautfiulSoup的更多相关文章

随机推荐

热门专题