Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢?

1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据。
本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介。 2.分析这个目标,即需要确定抓取这些网站数据的策略。
有三部分需要分析。
1)需要分析这些目标页面的url格式,用来限定我们要抓取页面的范围。
如果这个范围不进行限定的话,我们的爬虫就会抓取互联网上很多不相关的网页,造成资源的浪费。
2)我们需要分析要抓取得数据格式。
在本实例中就要分析,每一个词条页面中标题和简介。这两个数据在标签中的格式。
3)分析页面的编码。
在我们代码的解析器这部分,需要指定网页的编码,才能够正确的解析。在分析完目标格式以后,
我们进行代码的编写。在代码的解析器这部分,就需要使用到前面分析目标这个步骤所得到的抓取策略结果。 3.执行爬虫,进行数据的抓取。 从这些步骤中,我们可以看到分析目标,即制定抓取目标数据的策略是非常重要的一部分。打开我们爬虫的
入口页,也就是python百度百科词条页面。 我们来分析一下抓取这个页面以及相关页面的数据,它的抓取策略是什么?

首先这个页面的url是 http://baike.baidu.com/view/21087.htm

我们来看一下,相关词条页面的url是什么形式?
在这个页面中,任意的词条之上,右键审查元素,可以看到都是/view/xxxx.htm,这是一个不完整的url,
在代码中需要在其前面加上baike.baidu.com,把它拼成一个完整的url,才能进行后续的访问。这就是我们得
到的url格式。
然后,我们来看一下要抓取的标题和简介数据标签格式?
首先我们在python标题上右键审查元素?简介上右键?查看编码格式?通过右键审查元素这种方式,我们就
得到了抓取python以及相关词条网页的url格式、数据格式、网页编码,即得到了抓取这些网站数据的抓取策略。 目标:百度百科python词条相关词条网页 – 标题和简介

入口页: http://baike.baidu.com/view/21087.htm

url格式:
词条页面url:/view/125370.htm
数据格式:
标题:
<dd class="lemmaWgt-lemmaTitle-title">
<h1>Python</h1>
</dd>
简介:
<div class="lemma-summary" label-module="lemmaSummary"></div>
页面编码:utf-8
以上就是我们获得抓取python和相关词条网页的抓取策略,这里需要提醒大家的是,每一个互联网的网站
都会不停升级它的格式。作为一个定向爬虫来说,如果一个网站的格式发生了升级,我们的抓取策略随即升
级。
本实例给出的代码,如果运行出错的话可能是网站的格式发生了升级,我们需要打开目标网站,重新制定新
的策略,修改代码后才能够重新运行。 调度程序
编写实例代码,爬取百度百科python词条页面以及相关1000个页面数据。
创建一个 baike_spider来存放python代码,创建所需要的模块。 创建spider_main.py -- 爬虫的总调度程序
url_manager -- url管理器
html_downloader – 下载器
html_parser – 解析器
html_outputer
– 本代码将所有搜集好的数据写出到一个html页面中,打开一个页面就可以看到所有已经爬取好的数据 spider_main.py
爬虫总调度程序,会以一个入口的url作为参数来爬取所有的相关的页面。
编写main函数,在main函数中,设置下要爬取的入口url http://baike.baidu.com/view/21087.htm
创建一个obj_spider = SpiderMain() 首先我们将入口url添加到url管理器,url管理器中已经有了待爬取的url。
当url管理器已经有了待爬取的url的时候,获取一个待爬取的url。
获取之后,我们启动一个下载器下载这个页面, 结果存储在html_cont中。
下载好了页面。我们调用解析器解析这个页面数据,得到新的url列表和新的数据。 解析器
我们传入两个参数,当前爬取的url和下载好的页面数据。
解析出来的两个数据 url和数据,进行分别处理。
将url添加进url管理器,将数据输出并收集。
这样如果有一个待爬取的url,我们的爬虫就能够爬取所有的url。
最后调用输出收集好的数据。

Python 开发轻量级爬虫08的更多相关文章

  1. Python 开发轻量级爬虫07

    Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装 使用pip install 安装:在命令行cmd之后输入,pip i ...

  2. Python 开发轻量级爬虫06

    Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器 将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...

  3. Python 开发轻量级爬虫05

    Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器 网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...

  4. Python 开发轻量级爬虫04

    Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...

  5. Python 开发轻量级爬虫03

    Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...

  6. Python 开发轻量级爬虫02

    Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介 首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...

  7. Python 开发轻量级爬虫01

    Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫 为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...

  8. Python开发轻量级爬虫

    这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页 设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:p ...

  9. Python开发简单爬虫 - 慕课网

    课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序   课程目录 第1章 课程介绍 ...

随机推荐

  1. SQL Server 常用关键字

    SQL 建库 建表 --1.创建一个数据库 create database School; --删除数据库 drop database School; --创建数据库的时候指定一些选项. create ...

  2. Dribbble for windows phone 8

    正如你看到文章的标题所示.这是一个Dribbble 基于windows phone 8的客户端.[开源项目] 对于大部分的开发人员来说很少关注Dribbble[不妨打开看看或是注册一个player账号 ...

  3. Android ORM 框架之 greenDAO 使用心得

    前言 我相信,在平时的开发过程中,大家一定会或多或少地接触到 SQLite.然而在使用它时,我们往往需要做许多额外的工作,像编写 SQL 语句与解析查询结果等.所以,适用于 Android 的ORM  ...

  4. eclipse-将同一个文件分屏显示

    windows-editor-toggle split editor 效果图

  5. Java语法

    java语法: 一个java程序可以说是一系列对象的集合,而这些对象都要通过调用彼此的方法来协同工作. 对象: 对象是一个实例,例如:一只猫,它是一个对象,有状态和行为.它的状态状态有:颜色,名字,品 ...

  6. Alpha阶段测试报告

    测试说明 APP中前后端交互的接口主要有两种,一种是游戏开始前获取信息的HTTP请求接口,这种接口可以看成是静态的,比较简单:另外一种就是游戏过程中进行实时通信的Websocket请求接口,因为这是在 ...

  7. Windows的基本内容

    1, 进程间通信:是指进程间进行信息交换 低级方式:信号量通信(可以交换的信息量少的时候) 高级通信方式(3种):1.共享存储器系统(剪贴板) 2.消息传递系统(进程间的数据交换以消息(message ...

  8. Google 地图 API V3 之事件

    Google官方教程: Google 地图 API V3 使用入门 Google 地图 API V3 针对移动设备进行开发 Google 地图 API V3 之事件 Google 地图 API V3 ...

  9. Web jquery表格组件 JQGrid 的使用 - 6.准备工作 & Hello JQGrid

    系列索引 Web jquery表格组件 JQGrid 的使用 - 从入门到精通 开篇及索引 Web jquery表格组件 JQGrid 的使用 - 4.JQGrid参数.ColModel API.事件 ...

  10. docker windows 7 mysql安装使用教程

    mysql 1. 镜像的下载 Docker pull MySQL 可以从https://docker.cn/docker/mysql 看到官方的同步镜像. 大约400多M. 2. 运行 每个镜像都有一 ...