发布地址

https://github.com/LongWerLingShi/DataObtainingAndHandling/tree/beta

版本开发背景

  首先,应软件工程课程要求,我们小组针对学霸网站进行了后台数据处理与获取模块的开发。在最初的两周里面,基于前届学长们的作品,我们开发出了alpha版本。但是受限于老旧的代码架构,很多的问题都无法得到有效的解决。于是在接下来的一个月里面,我们又开发出了beta版本,彻底抛弃了之前爬虫程序以及数据处理程序的全部框架,重新构建了完整的程序。在性能获得质的飞跃的同时,我们还新增了管理网页用于查看当前的处理进度以及控制程序

新增功能

  1. 爬虫权限控制(robot.txt协议)
  2. 新增新增基于之前爬取进度继续爬取的功能
  3. 新增多线程爬虫
  4. 新增动态控制爬虫开关以及数量的功能
  5. 新增动态增加删除seed的功能
  6. 新增网页图形化显示界面
  7. 新增对于问答对的处理
  8. 新增爬取图片的功能
  9. 新增对于中文的支持
  10. 新增基于TD-IDF算法的关键词提取模块

修复缺陷

  1. 修复了编码格式不一致导致的乱码问题
  2. 修复了爬虫相关的所有bug(因为重构)
  3. 修复了中英翻译的bug

对于于运行环境的要求

  1. window系统
  2. 可以正常访问ipv6网站

安装使用

  1. 整个系统分为爬虫以及数据处理两个部分
  2. 爬虫作为爬取数据源,需要作为java后台程序一直运行并且可以通过网页来控制
  3. 网页需要安装配置好apache、php相关环境
  4. 具体操作安装方法见文档:学霸数据处理项目之数据处理框架开发者手册(http://www.cnblogs.com/nrm1/p/6215275.html)

系统已知的问题以及限制

  1. 由于服务器网络环境的限制,所以当前只能在个人pc上运行,在服务器上无法正常访问部分网站
  2. 出于对爬虫准确性的控制,增加了对于域名访问的限制,可能会影响一些爬虫对于单个网站爬取的效率

功能对照表

测试功能 测试项 效果描述 完成情况
管理页面 处理程序启动 点击“开始”按钮可以让处理程序开始处理  T
打开爬虫管理页面 点击“来源配置”弹出爬虫管理页面  T
打开输出目标配置页面 点击“输出配置”弹出输出配置页面  T
爬虫功能 爬虫爬取信息seed增加 可以在爬虫管理页面手动增加爬取信息来源网站  T
爬虫关键词筛选 可以增加关键字在爬取信息的时候筛选内容  T
爬虫多线程启动 可以自定义启动几个爬取线程,并且可以看到各个线程的运行情况  部分
爬虫信息展示 可以看到此处运行爬虫的信息,运行时间、爬取到的文件数  T
爬虫爬取网站数量限制 可以自定义爬虫爬取网站数,如果缺省则一致爬下去  F
爬虫文件信息保存 从网上爬下的信息可以按照格式保存在数据库里面,可以从数据库看到数据更新  T
数据处理功能 数据处理启动控制 可以在网站上管理当前数据处理线程的启动与暂停  T
doc数据文本信息获取 从doc文件中提取文本信息出来  T
doc关键信息提取 从doc文件中提取关键信息并且保存  T
html数据文本获取 从html提取去噪后的文本  T
html关键信息提取 从html文件提取关键信息  T
pdf数据文本获取 从pdf文件提取文本信息  T
pdf关键信息提取 从pdf文件中提取关键词  T
问答对网站信息提取 从问答网站提取问题以及优质答案  T
拓展功能 配置链接的solr账户 可以手动配置需要链接的solr数据库  F
自定义上传 允许用户进行solr索引删除以及重建选项  F
提供修改关键词接口 提供修改关键词接口以及访问方法  T
登陆账户 提供登陆界面,使用固定账号才可以登陆到管理界面里面  T

Beta版本发布说明的更多相关文章

  1. Beta版本测试报告以及Beta版本发布说明

    Beta版本测试报告 请根据团队项目中软件的需求文档.功能说明.系统设计和Beta阶段的计划安排,写出软件的测试过程和测试结果,并回答下述问题. 在测试过程中总共发现了多少bug?每个类别的bug分别 ...

  2. 团队作业-Beta版本发布

    这个作业属于哪个课程  <课程的链接>            这个作业要求在哪里 <作业要求的链接> 团队名称 Three cobblers 这个作业的目标 Beta版本发布报 ...

  3. 易货Beta版本发布说明

    说明 由于前几天确实比较忙,所以没来得及写发布说明. 功能 我们在beta版本主要加入了以下几个功能: 一:增加了用户的发布界面 二:增加了用户的购买界面 三:使用下拉刷新取代了之前的handler后 ...

  4. 学霸网站-Beta版本发布说明

    项目名称 学霸网站 项目版本 Beta 项目团队 ourteam 发布日期 2015-1-5 一.Alpha版本实现功能简介: 1.匿名提问 2.匿名回答 3.采纳功能 4.登录.注册失败后,用户名等 ...

  5. Beta版本发布报告

    项目名称 学霸系统写手机客户端 项目版本 Beta版本 负责人 北京航空航天大学计算机学院 hots团队 联系方式 http://www.cnblogs.com/hotsbuaa/ 要求发布日期 20 ...

  6. 各组Beta版本发布点评

    1.  新蜂:俄罗斯方块 俄罗斯方块已经基本完成了所有功能,运行流畅,也加入了之前用户期待的即将降落的方块和游戏积分的功能,用户还能随时暂停和继续游戏. 2. 天天向上: 连连看游戏 连连看游戏在核心 ...

  7. [转帖] 红帽8.0 beta版本发布 内核新版本 4.18

    Red Hat Enterprise Linux 8 Beta 现已发布! https://www.oschina.net/news/101870/red-hat-enterprise-linux-8 ...

  8. Pipeline组Beta版本发布说明

    项目名称 Pipeline 项目版本 Beta版本 负责人 北京航空航天大学计算机学院 IloveSE 小组 联系方式 http://www.cnblogs.com/IloveSE 要求发布日期 20 ...

  9. Beta版本发布

    这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1/?page=2 这个作业要求在哪里 <作业要求的 ...

随机推荐

  1. Get the current user permission level on a list item with ecmascript 分类: Sharepoint 2015-07-14 14:13 7人阅读 评论(0) 收藏

    To Check current users permissions using Ecmascript\Javascript client object model SharePoint 2010. ...

  2. 重叠I/O模型

    一. 重叠I/O的概念当调用ReadFile和WriteFile时,如果最后一个参数lpOverlapped设置为NULL,那么线程就阻塞在这里,直到读写完指定的数据后,它们才返回.这样在读写大文件的 ...

  3. iOS---初识Swift(一)

    一.Swift简介 ○ 2010年的夏天, 苹果公司的开发人员Chris Latten接到了一个特别的任务, 为OS X 和iOS平台开发下一代编程语言, 也就是Swift. ○ 苹果公司于2014年 ...

  4. Spark的WorkCount的例子

    之前为了搭建scala开发spark的环境花了几天的时间,终于搞定了,具体可以参考:http://www.cnblogs.com/ljy2013/p/4964201.html   .下面就是用一个示例 ...

  5. bigdecimal 保留小数位

    public class test1_format { public static void main(String[] args) { BigDecimal decimal = new BigDec ...

  6. Empty 和空字符串区别

    如果 var 是非空或非零的值,则 empty() 返回 FALSE. 换句话说,"".0."0".NULL.FALSE.array().var $var; 以 ...

  7. 【Java讨论】引用类型赋值为null对加速垃圾回收的作用(转载)

    :有一些人认为等于null可以帮助垃圾回收机制早点发现并标识对象是垃圾.其他人则认为这没有任何帮助.是否赋值为null的问题首先在方法的内部被人提起.现在,为了更好的阐述提出的问题,我们来撰写一个Wi ...

  8. 一个Ubuntu源更新错误及解决办法

    InRelease: Clearsigned file isn't valid, got 'NODATA' (does the network require authentication?) 尝试进 ...

  9. Spring事务传播机制&隔离级别

    一.Propagation (事务的传播属性) Propagation : key属性确定代理应该给哪个方法增加事务行为.这样的属性最重要的部份是传播行为.有以下选项可供使用:PROPAGATION_ ...

  10. HSLA颜色

    CSS2中色彩模式只有RGB色彩模式(RGB即RED.Green.BLue)和十六进制模式,为了能支持 透明opacity 的Alpha值,CSS3又增加了RGBA色彩模式(RGBA即RED.Gree ...