我们所抓取的网页源代码一般都是 HTML 格式的文件,只要研究明白 HTML 中
的标签( Tag )结构,就很容易进行解析并取得所需数据 。
HTML 网页结构
HTML 网 页是由许多标签( Tag )构成,标签需用 。字符括起来 。 大部分标签
成对出现,与开始标签对应的结束标签前多 一个“/ ” 字符,例如 < html><斤itml>。 少
数标签非成对出现 ,如 <i mg src=’’image. g”〉 。 HTML 网页主要结构如下 :

比较简单的标签如“<title >标题</title >”,只包含标签名称及其内容,并没有属
性;有些较复杂的标签,除标签本身外,还包含了一些属性, 如“<img src="data:image.
jpg” alt=”图片说明” width=200px height=320px>”,其中 的 scr 、 alt 、 width 、 height 都
是 i mg 标签的属性 。
从网页开发界面查看网页源代码
当使用 QQ/ IE/Firefox 浏览器浏览某个网站时,按下 F12 键就会打开网页的开发
界面。我们以 QQ 浏览器为例,第 一 次打开开发界面时会默认停留在开发界面中的
Elements 菜单,此时我们就可以看到该网页的 HTML 源代码 。
以百度搜索网站的首页为例,我们希望从网页中取得该网页的标题名称,那么
我们可以进行如下操作:
在 QQ 浏览器中输入 www.baidu.com ,打开百度网 。 然后我们按 F12 键,
打开网页的开发界面,单击 Elements 菜单,在代码中展开<head>标签。

在<head> 标签下,我们可以看到该页面的<title> </title >标签内包含了
我们在页面中看到的“百度一下,你就知道”标题内容。
通过鼠标右键查看源代码

试用 BeautifulSoup 进行网页抓取与解析
如果 需 抓取的数据较复杂,我们可以用 一 个功能更强的网页解析工具
BeautifulSoup 来对特定 的目标进行抓取和分析 。
使用 BeautifulSoup
导入 BeautifulSoup 后,先用 requests 包中的 get 方 法取得网页源码,然后就
可以用 Python 内 建的 html.parser 解析器对源代码进行解析,解析的结果返回到
Beautiful Soup 类对象 S p 中 。语法格式如下 :

例如:创建 BeautifulSoup 类对象 Sp ,解析“htttp://www.baidu.com ”网页源代码 。
import requests
from bs4 import BeautifulSoup url = 'http://www.baidu.com'
html = requests.get(url)
sp = BeautifulSoup(html.text, 'html.parser')
BeautifulSoup 的属性和方法
BeautifulSoup 常用的属性和方法如下 : (表中假设己创 建 BeautifulSoup 类的对
象 s p)

select 方法
select 方法通过 css 样式表的方式抓取指定数据 , 它的返回值是列表。
例如 :抓取<title> 的内 容。
datal = sp.select (” title”)
select 方法可以抓取指定的 id ,因为 id 是唯一的 ,所以抓取结果最精确。例如 :
抓取 id 为 rightdown 的网页源代码内 容,注意 id 前必须力口气” 符号。
datal = sp . select (”#rightdown ”)
可以通过 css 类的类名 title 进行搜索。例如 :

还可以使用 tag 标签逐层搜索。例如 :

为了方便讲解,我们通过下面例子来说明 。假设 HTML 原始码如下 , 井创 建
Beautiful Soup 对象 sp :
html_doc = """
<html><head><title>页标题</title></head> <p class="title"><b>文件标题</b></p> <p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p> <p class="story">...</p>
from bs4 import BeautifulSoup

sp = BeautifulSoup(html_doc,'html.parser') 

print(sp.find('b')) # 返回值:<b>文件标题</b>

print(sp.find_all('a')) 

用 find_all( tag, {属性名称:属性内容})可以抓取所有符合属性规定的 tag 内 容。
注意其中第二个参数是字典型数据。所以 ,上例功能还可通过下面的代码实现:
print(sp.find_all("a", {"class":"sister"}))

data1=sp.find("a", {"href":"http://example.com/elsie"})
print(data1.text) # 返回值:Elsie

data2=sp.find("a", {"id":"link2"})
print(data2.text) # 返回值:Lacie

data3 = sp.select("#link3")
print(data3[0].text) # 返回值:Tillie

print(sp.find_all(['title','a']))

data1=sp.find("a", {"id":"link1"})
print(data1.get("href")) #返回值: http://example.com/elsie

吴裕雄--天生自然python学习笔记:python爬虫与网页分析的更多相关文章

  1. 吴裕雄--天生自然HADOOP学习笔记:hadoop集群实现PageRank算法实验报告

    实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班 ...

  2. 吴裕雄--天生自然MySQL学习笔记:MySQL UPDATE 更新

    如果需要修改或更新 MySQL 中的数据,我们可以使用 SQL UPDATE 命令来操作. 语法 以下是 UPDATE 命令修改 MySQL 数据表数据的通用 SQL 语法: UPDATE table ...

  3. 吴裕雄--天生自然MySQL学习笔记:MySQL 插入数据

    MySQL 表中使用 INSERT INTO SQL语句来插入数据. 可以通过 mysql> 命令提示窗口中向数据表中插入数据,或者通过PHP脚本来插入数据. 以下为向MySQL数据表插入数据通 ...

  4. 吴裕雄--天生自然MySQL学习笔记:MySQL简介

    MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用 ...

  5. 吴裕雄--天生自然 oracle学习笔记:oracle理论学习详解及各种简单操作例子

    1. 数据库的发展过程 层次模型 -->网状模型 -->关系模型 -->对象关系模型 2. 关于数据库的概念 DB:数据库(存储信息的仓库) DBMS:数据库管理系统(用于管理数据库 ...

  6. 吴裕雄--天生自然HADOOP学习笔记:基本环境配置

    实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分 ...

  7. 吴裕雄--天生自然HADOOP学习笔记:使用yum安装更新软件

    实验目的 了解yum的原理及配置 学习软件的更新与安装 学习源代码编译安装 实验原理 1.编译安装 前面我们讲到了安装软件的方式,因为linux是开放源码的,我们可以直接获得源码,自己编译安装.例如: ...

  8. 吴裕雄--天生自然HADOOP学习笔记:Shell工具使用

    实验目的 学习使用xshell工具连接Linux服务器 在连上的服务器中进入用户目录 熟悉简单的文件操作命令 实验原理 熟悉shell命令是熟悉使用linux环境进行开发的第一步,我们在linux的交 ...

  9. 吴裕雄--天生自然HTML学习笔记:HTML 布局

    网页布局对改善网站的外观非常重要. 请慎重设计您的网页布局. <!DOCTYPE html> <html> <head>  <meta charset=&qu ...

  10. 吴裕雄--天生自然MySQL学习笔记:MySQL 安装

    所有平台的 MySQL 下载地址为: MySQL 下载:https://dev.mysql.com/downloads/mysql/ 注意:安装过程我们需要通过开启管理员权限来安装,否则会由于权限不足 ...

随机推荐

  1. dfs--八皇后问题

    在N*N的方格棋盘放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在与棋盘边框成45角的斜线上. 你的任务是,对于给定的N,求出有多少种合法的放置方法. 因为我们 ...

  2. IE浏览器F12调试模式不能使用或报错以及安装程序遇到错误0x80240037的解决办法

    记录一下,方便以后查找 IE浏览器F12调试模式不能使用: 需要下载补丁: 64位系统 然后下载安装,就能解决问题. 要是在安装时遇到出现: 安装程序遇到错误 0x80240037   解决方式 最后 ...

  3. win10开发环境下安装mongodb

    MongoDB 下载 https://www.mongodb.com/download-center/community 在win10系统安装mongodb需要vc++运行库,如果没有则会提示“无法启 ...

  4. ae基础一

    1.导入素材2.整理素材3.创建合成1280*720是高清的模式 也是平时都用的格式 HDV/HDTV 720 251920*1080是超清的模式格式是以16:9的格式显示的 电脑电视机都是用这个比例 ...

  5. Django搭建后篇——启动服务器及创建视图

    开启服务器,Django开启服务器的方式有两种,一种是在Ubuntu在开启,另一种是直接在pycharm开启.就方便而言肯定是第二种,但由于pycharm版本的问题,可能有的人无法直接在pycharm ...

  6. springmvc中那些易被忽略的小知识点

    1.springmvc会为没有view的modelandview指定默认view 知道这个的时候我都惊呆了. 我从来都是手动指定view名字,今天看到别人写的代码竟然直接返回了个mav,貌似是在dis ...

  7. Linux分区挂载

    Liunx采用树形的文件管理系统,也就是在Linux系统中,可以说已经没有分区的概念了.分区在Linux和其他设备一样都只是一个文件.要使用一个分区必须把它加载到文件系统中.这可能难于理解,继续往下看 ...

  8. SQL注入常用函数(注入小白的学习笔记)

    在盲注的情况下,往往需要一个一个字符的去猜解,即过程中需要截取字符串 在这里整理了一下一些常用函数 由于现阶段学习不够深入,整理分类不清楚具体,不过博主会慢慢进行完善 user() 查询当前数据库用户 ...

  9. jquery选择器之获取父级元素、同级元素、子元素

    一.获取父级元素 1. parent([expr]): 获取指定元素的所有父级元素 二.获取同级元素: 1.next([expr]): 获取指定元素的下一个同级元素 2.nextAll([expr]) ...

  10. 37)智能指针(就是自动delete空间)

    1)问题引入: 在java或者在C++中,一旦你new一个东西,那么必然有一个delete与之对应,比如: int main() { int* p= new int(): *p=: delete p: ...