前言

前面安装了BeautifulSoup库,现在就来实现一下吧。

目录

一、Urllib库的使用

二、BeautifulSoup的使用

三、 一个示例

------------------------------------------------------------------------------------------------------------

正文

一、Urllib库的使用

看了一些简单爬虫的资料,都用到了Urllib库,想必这也是与web爬取数据的基础,因此先去看了看Urllib库的相关内容。

按我自己的理解,爬取网页的内容其实就是先把页面的信息先通过Urllib库抓取到本地,然后再通过BeautifulSoup库来精细划分抓取得到的页面内容数据。

使用Urllib库的最基本方法其实就三行代码(如下):

# -*- coding: utf-8 -*-
import urllib res = urllib.urlopen("http://www.baidu.com")
print res.read()

具体解释:

  • urllib库一般安装完Python后就自带在其安装包里面了,所以直接使用"import urllib"语句就能直接使用了;
  • urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。

(参数url表示远程数据的路径,一般是网址;参数data表示以post方式提交到url的数据)

  • urlopen()返回 一个类文件对象(此处用res来获取该对象),它提供了如下方法:read() , readline() , readlines() , fileno() , close()
  • res.read()返回获取到的网页内容

最后输出的内容如下所示(相当于查看网页源码看到的内容)

二、BeautifulSoup的使用

在用Urllib库从网页上得到了网页数据后,就要开始使用BeautifulSoup了。

1. 首先创构造一个BeautifulSoup对象

下面有一些最简单的例子:

(1)通过字符串创建BeautifulSoup对象

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
helloworld = '<p>Hello World</p>'
soup_string = BeautifulSoup(helloworld, "html.parser")
print soup_string

结果:

(2)通过类文件对象创建BeautifulSoup对象

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup url = "http://www.baidu.com"
page = urllib.urlopen(url)
soup = BeautifulSoup(page,"html.parser")
print soup

因为前面说的Urllib库用urlopen()返回的就是一个类文件对象,所以这里的结果和之前Urllib中对象调用read()得到的结果是一样的。

(3)通过本地文件对象创建BeautifulSoup对象

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup with open('index.html','r') as foo_file :
soup_foo = BeautifulSoup(foo_file, "html.parser")
print soup_foo

【注意】以上的三种方法创建BeautifulSoup对象使用的语句是:BeautifulSoup(urllib库对象名, "html.parser"),其中标红的部分"html.parser"是我时间之后发现要加的,很多教程里面是直接使用 BeautifulSoup(urllib库对象名)来创建,但是我运行的时候会有一个warning:

于是就按照提示上说的,加上了"html.parser",运行之后果然正常了,所以如果你也遇到一样的问题,就还是加上它吧:)

2.使用BeautifulSoup库的 find()和findAll()函数

在构造好BeautifulSoup对象后,借助find()和findAll()这两个函数,可以通过标签的不同属性轻松地把繁多的html内容过滤为你所想要的。

这两个函数的使用很灵活,可以: 通过tag的id属性搜索标签、通过tag的class属性搜索标签、通过字典的形式搜索标签内容返回的为一个列表、通过正则表达式匹配搜索等等

基本使用格式:

pid = soup.find(attrs={"id":"aa"})
pid = soup.findAll('a',{'class':'sister'})

三. 一个示例

这个示例是我在查找资料的时候看到的,按照代码运行得出来,理解起来也简单,因此就借鉴一下

(原文地址:http://www.cnblogs.com/hearzeus/p/5151449.html

下面是代码和效果:

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup res = urllib.urlopen("http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book")
soup = BeautifulSoup(res,"html.parser")
book_div = soup.find(attrs={"id":"book"})
book_a = book_div.findAll(attrs={"class":"title"})
for book in book_a:
print book.string

【Python实例二】BeautifulSoup爬虫简单实践的更多相关文章

  1. kafka原理和实践(二)spring-kafka简单实践

    系列目录 kafka原理和实践(一)原理:10分钟入门 kafka原理和实践(二)spring-kafka简单实践 kafka原理和实践(三)spring-kafka生产者源码 kafka原理和实践( ...

  2. 【Python实例二】之前期准备:Windows下的BeautifulSoup安装

    前言 一直久闻Python的爬虫很高效,而且操作便捷,因此决定开始练习爬虫的相关内容. 首先尝试的是Python的爬虫利器之一:BeautifulSoup.(这名字听起来就有种想要去探究的兴趣.... ...

  3. python实例2-写一个爬虫下载小功能

    主要是通过url,和re两个模块对一个网页的固定图片进行模糊匹配后下载下来. #! /usr/bin/python import re import urllib def gethtml(url): ...

  4. opencv python 图像二值化/简单阈值化/大津阈值法

    pip install matplotlib 1简单的阈值化 cv2.threshold第一个参数是源图像,它应该是灰度图像. 第二个参数是用于对像素值进行分类的阈值, 第三个参数是maxVal,它表 ...

  5. python实例二

    https://www.cnblogs.com/evablogs/p/6754974.html 题目:企业发放的奖金根据利润提成.利润(I)低于或等于10万元时,奖金可提10%:利润高于10万元,低于 ...

  6. python学习笔记(二)之python简单实践

    1 安装python开发环境 Linux环境下自动安装好了python,可以通过以下命令更新到python最新版本. #echo "alias python=/usr/bin/python3 ...

  7. Python初学者之网络爬虫(二)

    声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

  8. python beautifulsoup爬虫

    爬虫这个听起来很 hack 的名字,是我学习 python 的诱因.当 python 基础学习到一定程度(基本语法,数据类型掌握) 就可以开启自己的小爬虫了.毕竟实践才是提高的最快途径.废话说完了,下 ...

  9. 初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记

    零.背景 之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...

随机推荐

  1. [网站公告]18:07-18:20阿里云SLB故障造成网站不能正常访问

    (注:由于阿里云SLB管理控制台监控数据不准,实际故障时间是18:07-18:20.) 17:55-18:2018:07-18:20,我们使用的阿里云SLB(负载均衡)中有3台出现突发故障,造成全站无 ...

  2. Java日志(一):log4j与.properties配置文件

    日志是应用软件中不可缺少的部分,Apache的开源项目log4j是一个功能强大的日志组件,提供方便的日志记录,在Apache网站jakarta.apache.org/log4j可以免费下载到Log4j ...

  3. css的水平居中和垂直居中总结

    Html代码: <div class="md-warp"> <div class="md-main">块级元素</div> ...

  4. VIN码识别:助力汽车后市场转型升级

    随着中国汽车市场的成熟,汽车后市场发展迅速,呈“井喷”式增长.据最新数据统计,2015年,中国汽车后市场产值突破8000亿规模,到2018年有望突破万亿. 所谓汽车后市场是指汽车销售以后,围绕汽车使用 ...

  5. JavaScript Map数据结构

    Array.prototype.remove = function (s) { for (var i = 0; i < this.length; i++) { if (s == this[i]) ...

  6. 【python】Python3中出现'gbk' codec can't encode characte的成功解决方法?

    亲身测试,所遇问题完全解决!2018/07/08 21:37 环境:windows,Pycharm,python3.6.2 使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情 ...

  7. 接触到的一些数据结构: LIST_ENTRY, TAILQ

    双链表: LIST_ENTRY: typedef struct _LIST_ENTRY { struct _LIST_ENTRY  *Flink; follow: next entry, header ...

  8. [剑指Offer] 40.数组中只出现一次的数

    题目描述 一个整型数组里除了两个数字之外,其他的数字都出现了两次.请写程序找出这两个只出现一次的数字. [思路]此题考察的是异或运算的特点:即两个相同的数异或结果为0. 此题用了两次异或运算特点: ( ...

  9. 【bzoj3653】谈笑风生 DFS序+树状数组

    题目描述 给出一棵以1为根的有根树,q次询问,每次询问给出a和k,求点对 (b,c) 的数目,满足:a.b.c互不相同,b与a距离不超过k,且a和b都是c的祖先. 输入 输入文件的第一行含有两个正整数 ...

  10. CSS继承—深入剖析

    CSS的继承是指被包在内部的标签将拥有外部标签的样式性质.继承特性最典型的应用通常发挥在整个网页的样式预设,即整体布局声明.而需要要指定为其它样式的部份设定在个别元素里即可达到效果.这项特性可以给网页 ...