一、基础功能简介


  本团队的爬虫能够从网上搜索相关内容, 并归类,把所爬到的网页或各种类型的文档下载到本地上。 

  

  上届团队Beta版本爬虫的主要功能如下:

  a)可爬取网页,问答页并进行问答文件分类。

  b)设计了一个较为完善的UI界面,可显示爬取的进度:

  

  c) 声称能够专门爬取pdf,ppt,doc等文档。

  d) 能够对爬取的结果进行分析。

  

二、更新内容


  1.新增功能

  1.1 新添了用户自定义关键词的分类功能:

  

  其中腾讯、百度等分类关键词皆由用户自定义设置。

  1.2 真正实现了pdf,ppt,doc等文档文件的专门爬取:

  

  以爬取pdf为例。上届团队的pdf爬取仅仅是对种子网页的pdf进行爬取,其实就是单纯的单次扫描种子页面,没有真正体现爬虫的功能。我们对此进行了极大的升级,专门爬取pdf功能和网页爬取类似,能够进行多级链接的深层pdf爬取,存在专门的pdf文件夹中。升级后的功能爬取效率更高,数目更大。

  1.3 UI界面的升级:

  a) 考虑到我们的爬虫需要能够同时为多个用户服务,我们为爬虫设置了一个连接到数据库的验证界面。这样我们通过不同服务器的验证方式就可以连接上不同的数据库,而不是仅为单一服务器进行爬取了。如果没输入验证就点击确认,就会出现如下情况:

  

  b) 考虑到界面的简洁与使用性,我们把爬取进度显示表和基础设置分开。在没有开始爬取时仅显示基础设置界面,开始爬取后自动显示爬取进度界面。除此以外,我们还对界面的按钮进行了重新排版,使之更符合大多数人的使用习惯。

  

  1.4搭建了一个全新的数据库,对数据库的相关操作进行了优化,提高爬取效率。

  

  2.bug修复

  2.1 修复了一个多线程Bug,该Bug会导致爬取的网页数超出用户所要求的网页数。

  解决前:

  

  解决后:

  

  

  2.2 修复了一个Bug,该Bug会导致只要网址中出现pdf字符串就判断当前页为pdf类型。

  2.3 修复了一个Bug,该Bug会导致文档专门性爬取无法开始。

  2.4 修复了一个Bug,该Bug会导致用户选择通用爬取时爬虫只识别html和pdf型文件。

  3.相关优化

  3.1 优化了对数据库数据的统计操作,使得Analyze响应时间更快。

  3.2 优化了进行爬取时对进度显示以及对数据库操作的方法,使得单位时间爬取的网页数目更多(详情见测试报告)。

  3.3 优化了爬取方式,把网页、pdf、ppt等各文档文件的爬取和下载功能充分联系到一起,提高了爬取效率。同时删减了相应的代码文件,减少了代码量。

三、环境要求


操作系统要求 windows XP、windows 7、windows 8
运行环境要求 最新版本的JRE
数据库要求 Sql Server 2008及以上

四、安装方法


  把jar可执行文件复制到本地即可。

五、已知的缺陷与限制


  以下缺陷和限制将在Beta版本完善:

  a)在运行过程中有时会出现线程异常。

  b)尚不支持动态爬取。

  c)界面的功能键会因不规范操作而导致卡死。

六、发布方式和发布地址


  该版本爬虫部署在服务器10.2.26.60上,可自行拷贝试用。

【Alpha版本发布】爬虫队长正在待命!的更多相关文章

  1. Alpha版本发布

                Alpha版本发布   Part1.基本介绍 作业所属课程 课程链接 作业要求 要求链接 团队名称 Typhoon 作业目标 通过本次团队项目,体验通过使用软件工程来研发项目的 ...

  2. 评论alpha版本发布

    讲解顺序: 1.  新蜂:俄罗斯方块 俄罗斯方块已经完成了核心的游戏部分,可以流畅的进行游戏,经验值功能也已经完成,目前进度很好:不足之处主要有:后续的显示内容还没完成,所以界面空出来很多板块,alp ...

  3. 英语词典Alpha版本发布说明

    Alpha版本发布说明 功能: ·简洁的应用界面,不被无良的广告弹窗影响  ·功能直接,在需要查词时及时出现,没有每日一句精选文章等杀了你的流量,在学习过程中更加专注! ·采用金山词霸API,提供发音 ...

  4. Alpha版本发布时间安排

    Alpha版本发布截止时间:2014年11月23日 第一轮迭代M1报告时间:2014年11月27日课上 - 每个团队5分钟时间汇报,5分钟时间提问 第一轮迭代M1事后分析报告时间:2014年11月29 ...

  5. Pipeline组Alpha版本发布说明

    Pipeline组Alpha版本发布说明 项目名称 Pipeline 项目版本 Alpha版本 负责人 北京航空航天大学计算机学院 ILoveSE 联系方式 http://www.cnblogs.co ...

  6. GP工作室—Alpha版本发布2

    GP工作室-Alpha版本发布2 一.简介 1.1作业要求 这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/GeographicInformationSc ...

  7. GP工作室—Alpha版本发布1

    目录 GP工作室-Alpha版本发布1 一.简介 1.1作业要求 1.2团队成员 二.软件下载安装说明 五.项目总结 @(Gold Point团队の项目计划) GP工作室-Alpha版本发布1 一.简 ...

  8. play ball小游戏-Alpha版本发布说明

    Alpha版本发布说明 一.功能介绍 本团队所做的微信小程序是一款小球经碰撞后最终到达目的位置通关的休闲益智类游戏.Alpha版本具有的功能大体如下: 1. 闯关模式 多达12关普通竖屏关卡.4关特殊 ...

  9. Visual Lab Online —— Alpha版本发布声明

    Visual Lab Online -- Alpha版本发布声明 项目 内容 班级:北航2020春软件工程 博客园班级博客 作业:Alpha阶段发布声明 发布声明 目录 Visual Lab Onli ...

  10. 团队作业——项目Alpha版本发布

    ---恢复内容开始--- https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1   https://edu.cnblogs.com ...

随机推荐

  1. NYOJ2—括号配对问题

    括号配对问题 时间限制:3000 ms  |  内存限制:65535 KB 难度:3   描述 现在,有一行括号序列,请你检查这行括号是否配对.   输入 第一行输入一个数N(0<N<=1 ...

  2. oracle 数据库更新 新增 修改 删除

    数据增加 INSERT INTO 表名称 [(字段,字段,...)] VALUES (值,值,...) ; 考虑到日后代码的可维护性,一定要使用完整的语法进行数据的增加. 数据修改 UPDATE 表名 ...

  3. Hadoop的HDFS和MapReduce的安装(三台伪分布式集群)

    一.创建虚拟机 1.从网上下载一个Centos6.X的镜像(http://vault.centos.org/) 2.安装一台虚拟机配置如下:cpu1个.内存1G.磁盘分配20G(看个人配置和需求,本人 ...

  4. FFT/NTT/MTT学习笔记

    FFT/NTT/MTT Tags:数学 作业部落 评论地址 前言 这是网上的优秀博客 并不建议初学者看我的博客,因为我也不是很了解FFT的具体原理 一.概述 两个多项式相乘,不用\(N^2\),通过\ ...

  5. 「PKUSC2018」最大前缀和

    题面 题解 可以想到枚举成为最大前缀和的一部分的数 设\(sum_i=\sum\limits_{j\in i}a[j]\) 设\(f_i\)表示满足\(i\)的最大前缀和等于\(sum_i\)的方案数 ...

  6. Kubernetes学习之路(十八)之认证、授权和准入控制

    API Server作为Kubernetes网关,是访问和管理资源对象的唯一入口,其各种集群组件访问资源都需要经过网关才能进行正常访问和管理.每一次的访问请求都需要进行合法性的检验,其中包括身份验证. ...

  7. springboot之rabbitmq

    一.RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件).RabbitMQ服务器是用Erlang语言编写的,而集群和故障转移是构建在开放电信平台框架上的.所有 ...

  8. 【轮子狂魔】WeChatAPI 开源系统架构详解

    如果使用WeChatAPI,它扮演着什么样的角色? 从图中我们可以看到主要分为3个部分: 1.业务系统 2.WeChatAPI: WeChatWebAPI,主要是接收微信服务器请求: WeChatAP ...

  9. Macaca环境搭建全教程

    首先想要会Macaca,还得先会用github,不然你得死……因为各种例子都在git上,官网也一样,蛋疼的很…… #基础环境 1.JDK:jdk1.8-配置变量 2.Android SDK:sdk   ...

  10. css选择器分类与作用

    本文旨在总结css中各种选择器及其相应用途(持续更新) 通配符(全局)选择器 样式:*{} 示例: 总结:选定文档中所有类型的对象,如图所示写在css样式文件开头用来定义全局通用的一些属性.font- ...