Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计

通过使Scrapy框架，进行数据挖掘和对web站点页面提取结构化数据，掌握如何使用Twisted异步网络框架来处理网络通讯的问题，可以加快我们的下载速度，也可深入接触各种中间件接口，灵活的完成各种需求，使得我们的爬虫更强大、更高效。

熟悉掌握基本的网页和url分析，同时能灵活使用Xmind工具对Python爬虫程序（网络爬虫）流程图进行分析。同时，使用Weka 3.7工具，对所获取得到的数据进行数据挖掘分析操作。

一、项目分析

本次的实验内容要求使用scrapy框架，爬取腾讯招聘官网中网页（https://hr.tencent.com/position.php?&start=0）上所罗列的招聘信息，如：其中的职位名称、链接、职位类别、人数、地点和发布时间。并且将所爬取的内容保存输出为CSV和JSON格式文件，在python程序代码中要求将所输出显示的内容进行utf-8类型编码。

1. 网页分析

在本例实验开始之前，需要对所要求爬取的腾讯招聘网页进行网页分析，其中（https://hr.tencent.com/position.php?&start=0）的界面布局结构可如图2-1所示：

图1-1 所要爬取的信息页面布局

使用xpath_helper_2_0_2辅助工具，对其中招聘信息的职位名称、链接、职位类别、人数、地点和发布时间等信息内容进行xpath语法分析如下：

职位名称： //td[@class='l square']/a/text()

链接： //td[@class='l square']/a/@href

职位类别：//tr[@class='odd']/td[2]/text()|//tr[@class='even']/td[2]/text()

人数：//tr[@class='odd']/td[3]/text()|//tr[@class='even']/td[3]/text()

地点：//tr[@class='odd']/td[4]/text()|//tr[@class='even']/td[4]/text()

发布时间：//tr[@class='odd']/td[5]/text()|//tr[@class='even']/td[5]/text()

2. url分析

scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。

首先程序将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。在Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares交给Downloader，再向互联网发送请求，并接收下载响应（response）。

最后，将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders的同时。Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存,提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

二、项目工具

实验软件：Python 3.7.1 、 JetBrains PyCharm 2018.3.2 、其它辅助工具：略

三、项目过程

（一）使用Xmind工具对Python爬虫程序（网络爬虫）流程图进行分析，绘制如图3-1所示的程序逻辑框架图

图3-1 程序逻辑框架图

（二）爬虫程序调试过程BUG描述（截图）

图3-2 爬虫程序BUG描述①

图3-3 爬虫程序BUG描述②

（三）爬虫运行结果

图3-4 爬虫程序输出运行结果1

图3-5 爬虫程序输出文件

四、项目心得

关于本例实验心得可总结如下：

1、解决图3-4的程序错误，只需在gec.py的文件中进行导入操作：from Tencent.items import TencentItem 即可。对于解决如图4-1所示的内容，请如图5-1所示：

图4-1 程序错误纠正

2、 spider打开某网页，获取到一个或者多个request，经由scrapy engine传送给调度器scheduler request特别多并且速度特别快会在scheduler形成请求队列queue，由scheduler安排执行

3、 schelduler会按照一定的次序取出请求，经由引擎, 下载器中间键，发送给下载器dowmloader 这里的下载器中间键是设定在请求执行前，因此可以设定代理，请求头，cookie等

4、下载下来的网页数据再次经过下载器中间键，经过引擎，经过爬虫中间键传送给爬虫spiders 这里的下载器中间键是设定在请求执行后，因此可以修改请求的结果这里的爬虫中间键是设定在数据或者请求到达爬虫之前，与下载器中间键有类似的功能

5、由爬虫spider对下载下来的数据进行解析，按照item设定的数据结构经由爬虫中间键，引擎发送给项目管道itempipeline 这里的项目管道itempipeline可以对数据进行进一步的清洗，存储等操作这里爬虫极有可能从数据中解析到进一步的请求request，它会把请求经由引擎重新发送给调度器shelduler，调度器循环执行上述操作

Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计的更多相关文章

Scrapy项目 - 数据简析 - 实现腾讯网站社会招聘信息爬取的爬虫设计
一.数据分析截图本例实验,使用Weka 3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称.链接.职位类别.人数.地点和发布时间等信息进行数据分析,详见如下图: 图1-1 Weka ...
Scrapy项目 - 项目源码 - 实现腾讯网站社会招聘信息爬取的爬虫设计
1.tencentSpider.py # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentItem #创建爬虫 ...
Scrapy项目 - 实现斗鱼直播网站信息爬取的爬虫设计
要求编写的程序可爬取斗鱼直播网站上的直播信息,如:房间数,直播类别和人气等.熟悉掌握基本的网页和url分析,同时能灵活使用Xmind工具对Python爬虫程序(网络爬虫)流程图进行分析. 一.项目 ...
Scrapy项目 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
通过使Scrapy框架,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,进行数据挖掘和对web站点页面提取结构化数据,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
Scrapy项目 - 数据简析 - 实现斗鱼直播网站信息爬取的爬虫设计
一.数据分析截图(weka数据分析截图 2-3个图,作业文字描述) 本次将所爬取的数据信息,如:房间数,直播类别和人气,导入Weka 3.7工具进行数据分析.有关本次的数据分析详情详见下图所示: ...
Scrapy项目 - 源码工程 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.项目目录结构 spiders文件夹内包含doubanSpider.py文件,对于项目的构建以及结构逻辑,详见环境搭建篇. 二.项目源码 1.doubanSpider.py # -*- coding ...
Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分 ...
Scrapy案例02-腾讯招聘信息爬取
目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scrapy 3.3. 编写yield需要的管道文件 3.4. setting中配置请求 ...
Scrapy项目 - 实现百度贴吧帖子主题及图片爬取的爬虫设计
要求编写的程序可获取任一贴吧页面中的帖子链接,并爬取贴子中用户发表的图片,在此过程中使用user agent 伪装和轮换,解决爬虫ip被目标网站封禁的问题.熟悉掌握基本的网页和url分析,同时能灵活使 ...

随机推荐

CentOS -- Zookeeper installation and configure
1 JDK 1.8 must installed first 2 Get Zookeeper package wget https://archive.apache.org/dist/zookeepe ...
Java集合框架之TreeSet浅析
Java集合框架之TreeSet浅析一.TreeSet综述: 1.1TreeSet简介: TreeSet是Java集合框架的重要成员,先来看看TreeSet在jdk1.8中的定义吧: public ...
MySQL数据库笔记六：数据定义语言及数据库的备份和修复
1. MySQL中的函数 <1>加密函数 password(str) 该函数可以对字符串str进行加密,一般情况下,此函数给用户密码加密. select PASSWORD('tlxy666 ...
[Python] 数据结构--实现顺序表、链表、栈和队列
说明: 本文主要展示Python实现的几种常用数据结构:顺序表.链表.栈和队列. 附有实现代码. 来源主要参考网络文章. 一.顺序表 1.顺序表的结构一个顺序表的完整信息包括两部分,一部分是表中元素 ...
JavaScript 数据结构与算法之美 - 冒泡排序、插入排序、选择排序
1. 前言算法为王. 想学好前端,先练好内功,只有内功深厚者,前端之路才会走得更远. 笔者写的 JavaScript 数据结构与算法之美系列用的语言是 JavaScript ,旨在入门数据结构与算 ...
关于Springboot+thymeleaf +MybatisPlus 报错Error resolving template [index], template might not exist的问题解决
这个问题困扰了我整整一上午,各种方式,什么返回路径 ,静态资源啊什么的,能想到的都去搞了,可是问题还是解决不了!!!我查看了一下编译文件的[target]文件夹!发现了问题所在!根本就没有编译进去! ...
消费者、生产者Java代码示例，wait
箱子中的苹果代表资源,现在有消费者从箱子中拿走苹果,生产者往箱子中放苹果.代码如下: 资源--箱子中的苹果: public class Box { int size; int num; public ...
MongoDB的介绍安装与基本使用
MongoDB的介绍安装关于MongoDB的介绍于安装可参考:https://www.cnblogs.com/DragonFire/p/9135630.html 除了官网下载,可以下载他人下载好分享 ...
[python]文档字符串
文档字符串可以在运行时访问,也可以用来自动生成文档. 输入: def foo(): print "This is a doc string" return True foo() 运 ...
牛客2018多校第五场E-room 最小费用最大流
题意:有n个寝室,每个寝室4个人,现在在搞搬寝室的活动,告诉你每个寝室之前的人员名单,和之后的人员名单,问最少需要几个人要搬寝室. 思路: 转化为最小费用最大流解决的二分图问题,对每个去年的宿舍,向每 ...

Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计

Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计的更多相关文章

随机推荐

热门专题