python：BeautifulSoup学习

上一篇说到用BeautifulSoup解析源代码，下面我们就来实战一下：

 from bs4 import BeautifulSoup

 html = urllib.request.urlopen('http://www.massey.ac.nz/massey/learning/programme-course/programme.cfm?prog_id=93536')

 html = html.read().decode('utf-8')

 soup = BeautifulSoup(html)

 """

 or you can do:

     soup = BeautifulSoup(open('F:\\forpython\\Master of Counselling Studies (MCounsStuds) - 2017 - Massey University.html',encoding = 'utf-8'))

 """

 soup.find_all('h1')

 soup.h1.get_text()

其实用open的方式可以避免decode报错，可以的话还是用open比较好。运行结果：

 soup.find_all('h1')

 Out[76]: [<h1>Master of Advanced Leadership Practice (<span>MALP</span>)</h1>]

噌~是不是快了许多，还有更快的：

 soup.h1.get_text()

 Out[75]: 'Master of Advanced Leadership Practice (MALP)'

h1其实是一个标签，用BeautifulSoup解析过后可以直接引用，下面我们直接引用title标签（学过html的同学会知道title标签）

 soup.title

 Out[79]: <title>Master of Advanced Leadership Practice (MALP) - 2017 - Massey University</title>

接下来我们用BeautifulSoup帮助我们爬一张图片：

右键单击，选择‘检查’（我用的Google浏览器）

通过右边的elements一步一步的查找图片所在的源代码（你把鼠标放在源代码上会显现相应的位置）

看到了吧，在<div,class="block block-feature-image">下，我们使用BeautifulSoup开始撸：

 a = soup.find('div',{'class':"block block-feature-image"}).figure.img.attrs['src']

 # soup.figure.img.attrs['src'] 这样也可以

 a

 Out[129]: '/massey/fms/Study/StudyAtMassey/Images/prog_images/93059.jpg'

attrs是属性的意思，img.attrs['src']就是调出img对象src的属性值（这个语法我也不是很懂，好像是xpath的语法）。再把网址的头添加上去，写入本地文件：

 a1 = 'http://www.massey.ac.nz'+a

 pic = urllib.request.urlopen(a1).read()

 pic_data=open('F:/1.jpg','wb')

 pic_data.write(pic)

 pic_data.close()

搞定

python：BeautifulSoup学习的更多相关文章

Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
python beautifulsoup爬虫
爬虫这个听起来很 hack 的名字,是我学习 python 的诱因.当 python 基础学习到一定程度(基本语法,数据类型掌握) 就可以开启自己的小爬虫了.毕竟实践才是提高的最快途径.废话说完了,下 ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
60分钟Python快速学习(给发哥一个交代)
60分钟Python快速学习之前和同事谈到Python,每次下班后跑步都是在听他说,例如Python属于“胶水语言啦”,属于“解释型语言啦!”,是“面向对象的语言啦!”,另外没有数据类型,逻辑全靠空 ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python正则表达式学习摘要及资料
摘要在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2 ...
python 线程学习
彩照一.学习[1] # -*- coding: utf-8 -*- import time import thread def timer(no, interval): cnt = 0 while ...

随机推荐

小程序setData方法使用总结
做了一下小程序setData使用方法总结,如有错误,请不吝指出,Thanks♪(･ω･)ﾉ //示例data: data:{ user:'young', obj:{ name:'蓝色蒲公英', ag ...
css and canvas实现圆形进度条
进度条效果: 话不多说,上代码使用css动画实现,看到一篇博客的启发,稍微修改了下, css实现的原理是用两个半圆一开始隐藏,再分别旋转180度,最后成为一个整圆半圆效果,一开始右边的半圆在盒 ...
JavaMaven【六、生命周期】
Maven有三个独立的生命周期,每个生命周期都不会出发别的生命周期的操作若直接执行生命周期后面的操作,maven会默认执行前面的操作如项目创建好后,直接执行mvn install,会默认依次执行c ...
jar包编译成 dex
1.将需要合并的jar放到同一个目录 2.编写一个google.xml文件写入如下内容 <!--?xml version="1.0" encoding="utf-8 ...
【2017-04-20】Ado.Net与面向对象结合架构中的数据访问层（实体类，数据访问类）
开发项目三层架构:界面层.业务逻辑层.数据访问层今天学习一下数据访问层,分为实体类和数据访问类所有的类放在App_Code这个文件夹下边.养成一个好的习惯. 一.实体类数据库中的表映射为一个类, ...
shell i/o交互及重定向
标准输入:/dev/stdin,文件描述号:0,默认设备:键盘标准输出:/dev/stdout,文件描述号:1,默认设备:显示器标准错误输出:/dev/stderr,文件描述号:2,默认设备:显示 ...
python常用模块：包的使用、init作用、相对导入绝对导入与内置函数
今天主要讲的内容有: 一.包的详解二.相对导入和绝对导入三.内置模块补充一.包的详解 1.包是什么包其实也是一个模块,只不过是一个大的模块下包含一堆模块的载体本质上也是一个文件夹,与普通文件的区 ...
CentOS下安装软件
CentOS下安装软件,要看下载的软件安装包的后缀名是什么,一般为了方便安装,推荐下载以 rpm 结尾的软件包. 比如以下截图,有多种下载方式,推荐下载圈起来的链接. rpm包安装方式步骤: 找到相应 ...
学习使用C语言实现线性表
线性表是最常用且最简单的一种数据结构.一个线性表是n个数据元素的有限序列,序列中的每个数据元素,可以是一个数字,可以是一个字符,也可以是复杂的结构体或对象.例如:1,2,3,4,5是一个线性表,A, ...
oracle plsql登陆用户名密码都正确，拒绝登陆
先通过sqlplus 或者 sql developer 或者其他用户登陆然后更改登陆不上的用户的密码然后再用plsql登陆就可以了然后还可以再把用户密码再改回来也可以登陆了

python：BeautifulSoup学习

python：BeautifulSoup学习的更多相关文章

随机推荐

热门专题