数据获取以及处理系统 --- 功能规格说明书V2.0

产品规格说明书：

版本号: V2.0

版本说明：

Version 1.0	简单得需求分析以及构思，初稿形成
Version 2.0	细化beta阶段设计，增加典型用户尝尽以及功能罗列

1. 引言

1.1. 编写目的
　　此规格说明书编写的目的是明确本项目的详细需求，供用户确认项目的功能和性能，和用户形成一致的理解和确认，帮助实际用户以及潜在用户更好的理解本产品，同时也帮助我们在开发过程拥有更加明确的目的。

1.2. 项目背景
项目名称：Xueba网上教学问答系统后台数据获取和处理系统
项目面向用户：Xueba网上教学系统前端团队

项目开发者：北京航空航天大学软件工程龙威零式小组

2. 总体描述

2.1. 项目背景
　　在网上有许多关于某门学科 (例如计算机科学) 的许多知识和问答，这些问答散落在网上课件，维基百科，论坛，校园BBS，技术文档，教学视频… 中。许多网上大学也有很多相关内容。一个新手 (例如大学生) 往往要花许多时间搜索这些问题的答案。事实上，无数的师兄师姐们已经问过，答过这样的问题了。为了方便刚接触新的技术领域的人可以尽快的进入某一领域，最大程度的解决相关的技术问题，那么一个可以将相关信息整合起来的系统就变得很有必要，整个系统的目的是要把高质量的内容都聚合起来 (在遵守相关知识产权规定的前提下)，让用户能系统地浏览、搜索、编辑、评论；同时也支持用户继续通过提问/回答完善这些内容。数据的来源是整个项目的基础，本数据处理系统的作用就是从网上最大程度的收集整合信息，同时将数据处理过后以供网页展示出来。

2.2. 项目目标

　　依据一定的搜索种子，从网上搜索相关的网站，从网站上爬取有用的信息：包含html、word、pdf、MP4等，其中还有问答对形式的网页。系统将这些信息保存下来，并且进行分类整合。针对html、word、pdf文件，系统会提取里卖弄的文本文档，并且从中提取关键信息以供检索，同时还会提取作者、编辑时间等相关信息。最终将所有的信息上传到solr里面。同时，项目还提供一个后台管理网页，可以控制爬虫程序以及处理程序的开始以及暂停，线程数量，数据库链接，solr管理，同时可以从网页上看到当前的处理进度。

2.3. 典型用户场景：

　　本产品基本上只有一个用户，那就是xueba网站前端开发管理人员姬大神：

名字	姬某
性别	男
职业	某校某学院某学生
专业能力	geek
动机	需要为广大的学生群体造福，完成一个专业辅助性质的网站，同时完成某课程的课程要求
目的	需要人来完成后台数据的获取以及处理，并且最好可以依据一定的格式，按照我的需求来获得相关信息，供我的前台网页获取以及展示
困难	精力主要放在前端程序交互的搭建，所以没有足够的精力去专注在数据的获取以及处理
用户偏好	与前端接合完美，数据覆盖面广，数量充足
用户比例	约占本产品用户的100%
典型场景	登陆本系统的后台管理网页，启动数据获取以及处理程序，等这些处理好了就立马可以在前台展示出来，惬意且轻松
典型描述	有人帮我搞后台，真实不能更好了！

2.4. 典型用户需求说明

希望可以最主要的解决基本类型形式的数据获取功能，同时可以将关键词等信息提取出来
数据可以按照希望的形式排列，储存到solr里面方便读取
关键词需要准确
最好可以获取视频教学文件
问答对形式的内容可以专门提取出来
提供手动修改关键词等接口
可以直观的看到当前的处理进度

2.5. 运行环境要求

　　程序后台运行在服务器上，管理网页将基本支持主流浏览器，因为只是后台管理网页，所以功能完善的前提下，对于网页排版没有特别要求。

2.6. 产品前景

　　在满足当前用户的前提之下，可以对用户限制进行缩小，可以使得一般的网络用户也可以通过这个系统获取网页上的相关信息，作为一般小型系统的数据来源。并且可以进行管理，在接口做一些细小的变动之后，便可以拓展本系统的用户群体。

3. 功能描述

3.1. 数据来源个性化
　　系统提供选项可以让用户输入爬取数据起始网址，这样就允许用户自定义数据来源，例如百度、知乎、知网甚至国外的相关学术网站等数据来源。同时还可以通过输入的关键词进行筛选，只有包含关键词的信息才会被保存下来，所有的爬取的数据会放在服务器上的数据库里面。

3.2. 获取标签数据

　　对于初始保存下来的数据：包括html、doc、pdf文件等可以进行数据处理，提取出来里面的文本内容，并且可以根据里面的内容进行关键词、作者、生成时间等相关信息提取并保存。在关键词提取的时候，应该尽可能的避免冠词等没有实际意义的词汇。

3.3. 可视化当前处理进度

　　可以通过后台管理网页进行系统的开始停止设定，并且查看当前处理进度：有多少待处理以及已处理等。

3.4. 处理目标配置

　　对于处理结果的输出位置可以进行设置，例如是否需要输出到固定的solr服务器里面，同时可以在后台管理网页上面手动将数据从服务器数据库上上传到solr里面。同时可以允许用户选择是否即时将新处理的数据上传到solr里面。

3.5. 信息修改

　　对于关键词提取不准确的情况，应该可以通过接口对于已经存入的关键词信息进行矫正，新增，删除。

4. 界面原型设计

描述：

这个作为主页面，直观的看到我们的系统的处理的进度，包含所有的数据信息

同时还有两个子页面用于更详细的设置。

“来源配置”：弹出爬虫控制页面

“输出配置”：弹出输出控制页面

“开始处理”：启动数据处理程序，可以看到进度条开始走动

描述：

爬虫配置网页，可以分类别看到爬取的进度，如果没有启动则数据为缺省，可以手动添加seed，关键词，目标数量信息。

“开始”：从后台启动一个爬虫线程并且即时的更新数据在页面上

“暂停”：将后台的爬虫线程停止。

描述：

输出配置页面，可以手动设置目标存放信息的内容。

“确认”：确认当前的设置，返回上一层

5. 系统功能描述验收标准 Check List

测试功能	测试项	效果描述	完成情况
管理页面	处理程序启动	点击“开始”按钮可以让处理程序开始处理
	打开爬虫管理页面	点击“来源配置”弹出爬虫管理页面
	打开输出目标配置页面	点击“输出配置”弹出输出配置页面
爬虫功能	爬虫爬取信息seed增加	可以在爬虫管理页面手动增加爬取信息来源网站
	爬虫关键词筛选	可以增加关键字在爬取信息的时候筛选内容
	爬虫多线程启动	可以自定义启动几个爬取线程，并且可以看到各个线程的运行情况
	爬虫信息展示	可以看到此处运行爬虫的信息，运行时间、爬取到的文件数
	爬虫爬取网站数量限制	可以自定义爬虫爬取网站数，如果缺省则一致爬下去
	爬虫文件信息保存	从网上爬下的信息可以按照格式保存在数据库里面，可以从数据库看到数据更新
数据处理功能	数据处理启动控制	可以在网站上管理当前数据处理线程的启动与暂停
	doc数据文本信息获取	从doc文件中提取文本信息出来
	doc关键信息提取	从doc文件中提取关键信息并且保存
	html数据文本获取	从html提取去噪后的文本
	html关键信息提取	从html文件提取关键信息
	pdf数据文本获取	从pdf文件提取文本信息
	pdf关键信息提取	从pdf文件中提取关键词
	问答对网站信息提取	从问答网站提取问题以及优质答案
拓展功能	配置链接的solr账户	可以手动配置需要链接的solr数据库
	自定义上传	允许用户进行solr索引删除以及重建选项
	提供修改关键词接口	提供修改关键词接口以及访问方法
	登陆账户	提供登陆界面，使用固定账号才可以登陆到管理界面里面

数据获取以及处理系统 --- 功能规格说明书V2.0的更多相关文章

学霸系统UI部分功能规格说明书
发布人员:软件工程实践小队发布内容:学霸系统UI部分功能规格说明书版本:学霸V1.1版本 ◆Part 1:引言 1.1目的本功能规格说明书的目的在于明确 ...
学霸系统PipeLine功能规格说明书
学霸系统PipeLine功能规格说明书共分为以下三部分: 1.产品面向用户群体 2.用户使用说明 3.产品功能具体实现 1.产品面向用户群体我们这组的项目并不是传统意义上能发布并进行展示的项目,因此 ...
【BUAA软工】Visual Lab Online——功能规格说明书
项目内容班级:北航2020春软件工程博客园班级博客作业:明确和撰写软件的功能规格说明书功能规格说明书当前版本:v1.0 修订历史: 版本号修订时间修订说明 v1.0 2020/04/0 ...
BugPhobia进阶篇章：功能规格说明书
0x01 :特别鸣谢首先特别鸣谢<构建之法>中并没有给出固定化格式的功能规格说明书的样例,因此在此次的说明书中将尽可能用生动形象的例子展示软件交互阐释因此受到它本身的启发,此次团队功能 ...
(Alpha)Let's-典型用户和场景&功能规格说明书
典型用户和场景 Personal/典型用户名字阿王性别.年龄男.20 职业学生收入无知识层次和能力大学学生,善于乐于使用电脑.手机生活/工作情况上学动机.目的.困难感到大学生 ...
No.11_功能规格说明书
功能规格说明书 • 基本目标为用户提供更加便捷和人性化的闹钟提醒服务,以群组为单位规划时间安排与分配,对于个人用户,实现个人的设置闹钟,取消闹钟的操作,这些操作将会上传至数据库,并被同步到所有的客户 ...
[软件工程基础]PhyLab 功能规格说明书
前言 Sigma 团队想要在 PhyLab 上做的增量改进见需求分析.六个功能中只有题库和图文流程需要对界面进行大的改动,剩下的功能在用户看来仅仅是在原有界面上有内容上的扩充,因此不在功能规格说明书的 ...
【Alpha】功能规格说明书
更新说明:从用户需求分析中剥离有关用户场景分析部分,加入功能规格说明书. Github地址:https://github.com/buaase/Phylab-Web/blob/master/docs/ ...
[V1-Team] WEDO创意论坛功能规格说明书
项目功能规格说明书版本说明版本内容时间 V1.0 描述总体目标,用户使用场景,界面原型.功能设计及验收 2019.3.28 附Github仓库:WEDO 正文 1.目标规范指导整个项目设计与 ...

随机推荐

Linux架构
Linux架构作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 我以下图为基础,说明Linux的架构(architecture ...
[luogu2982][USACO10FEB]慢下来Slowing down(树状数组+dfs序)
题目描述 Every day each of Farmer John's N (1 <= N <= 100,000) cows conveniently numbered 1..N mov ...
（转载）TCP/IP的三次握手与四次挥手
TCP三次握手所谓三次握手(Three-way Handshake),是指建立一个TCP连接时,需要客户端和服务器总共发送3个包. 三次握手的目的是连接服务器指定端口,建立TCP连接,并同步 ...
转一个典型的 C++ 程序员成长经历：
1. 完整的学一遍 C++ 所有语言特性,典型书籍 "The C++ Programming Language" Part1, Part2, "C++ Primer&q ...
java易错基础知识点
一. Switch 1.其能接受的数据类型有四个,char , byte, short, int2.Default 可放在switch中的任何一个地方,但只有给定的条件匹配不到时,才会执行3.Case ...
数据库基础篇4（mysql语法---表）
5 表管理选择数据库 5.1 查看所有表 mysql> show tables; +-----------------+ | Tables_in_day15 | +------------ ...
Java远程调试代码不一致问题汇总
欢迎和大家交流技术相关问题: 邮箱: jiangxinnju@163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://g ...
Nosql modifing...
关键字补充(不晓得的自己去Google): 负载均衡 \文件上传到服务器\建表建动态列簇\数据仓库的应用\事务的提交和回滚\SQL执行计划\联机事务处理\联机分析处理\多表关联查询\数据存储引擎 N ...
node.js基础 1之基本概念常识
node.js 好牛逼的样子哦很火,很腻害~~~~ 有关node.js的版本常识: 一般用最新的稳定版本,非稳定版本用于测试,其中包括api的不稳定等. 起一个web服务器: ndoejs可以自定义 ...
IE6 一些兼容性问题及处理方法
1.IE6怪异解析之padding与border算入宽高原因:未加文档声明造成非盒模型解析解决方法:加入文档声明<!doctype html> 2.IE6在块元素.左右浮动.设定mar ...

数据获取以及处理系统 --- 功能规格说明书V2.0

数据获取以及处理系统 --- 功能规格说明书V2.0的更多相关文章

随机推荐

热门专题