李剑锋:        Blog:      http://www.cnblogs.com/Power-Byte/

    陈谋:            Blog:        http://www.cnblogs.com/13061176Terry/

    潘成鼎:         Blog:        http://www.cnblogs.com/cheney223/

    卢惠民:         Blog:        http://www.cnblogs.com/lhm924/

    仉伯龙:         Blog:        http://www.cnblogs.com/zhangbolong/

  • 项目目标:
  • 在线问答网站中散落着许多有价值的知识和有借鉴意义的经验,然而对于一个不精通于信息检索的人来说要寻找这些有价值的信息往往要耗费大量时间,甚至根本不能找到,故而本软件在此需求的基础上进行开发,以满足用户对于信息检索,信息筛选,信息翻译,信息可视化等方面的需求。

  • 预期的典型用户:
    • 软件的用户方一方面是学霸在线教学问答系统后台的开发人员,开发人员可以通过软件提供的接口来直接对于数据进行处理,开发人员具有专业计算机水平,
    • 软件的用户方另一方面是普通用户,本软件将功能性的模块进行集成与封装并且提供UI接口服务于普通用户对于信息检索,信息筛选,信息翻译,信息可视化等方面的需求。
  • 预期的功能描述:
    • 软件产品功能主要包括定义在线教学问答网站的内容结构,能够从爬到的内容中抽取元数据并将其纳入到既定的组织结构中,在用户查询时能够给予快速准确的响应,并且支持标签,翻译的功能。

      • 在线问答网站的内容结构定义;

          主要是对在线问答网站的组织进行格式化提取,(包括网站的用户提出的问题,以及其他用户给出的相应的解决方式),然后按照既定的格式整理并且存储到数据库中。

      • 增量式的数据处理;

          对于后续爬取得到的最新数据,能够按照定义好的内容结构准确地合并到已有的内容中。

      • 文本标签;

          对于用户提出的问题所属的类别使用标签进行分类。

      • 文本关键词提取;

          对于问题中所涉及的主要内容以及术语进行分类提取。

      • 文本内容翻译;

          满足基于不同语言背景的用户搜集检索资料的需求。

      • 用户界面与用户进行交互。

          满足界面友好的要求,对于用户来说易于上手,易于使用。

  •  预期用户数量
    • 由于我们的应用是给学霸客户端和在线系统使用,所以我们现阶段是没有多少用户的。主要在、是对这两大用户提供支持。
  • 项目实现历程

    Daily Srum 10.21 

    Daily Srum 10.22

    Daily Scrum 10.24

    Daily Srum 10.26

    Daily Srum 10.28

    Daily Srum 10.30

    Daily Scrum 11.1

    Daily Scrum 11.3

    Daily Scrum 11.5

    Daily Scrum 11.7

  • 团队成员在M1 的角色和具体贡献:

名字

角色

具体的可衡量的可验证的贡献

李剑锋

PM

写了6篇博客,多次和爬虫组、客户端、在线系统进行沟通,写了 800行代码

陈谋

Dev

写了3000行代码,  200行注释, 3篇博客

卢惠明

Dev

完成关键词抽取,写了1000行代码,并完成相应的测试,2篇博客

仉伯龙

Test

测试了关键词抽取代码,测试分词等

刘夕霆

Test

完成问答系统的设计,测试最终版本

潘成鼎

Test

完成早期的数据库设计

  • 成果展示
  • 主界面:

    

  • 添加文本:

  • 原始数据:

  • 去噪:

  • 分词:

  • 翻译原文本:(API)

  • 翻译译文:

  • 中英对照:

  • 最终结果:

  •  特色功能:

    • 首先,分词运用了TF-IDF方式。为了提高我们的关键词抽取的准确度,我们采用了TF-IDF的方式进行了关键词的抽取;
    • 其次,分词器有的多个选择,为了让用户选择最佳的分词器,我们给用户提供了多个可用的分词器;
    • 第三,完成文本翻译功能,为了让用户能够方便的进行数据的阅读,我们用百度翻译api进行文本翻译;
    • 第四,做到了功能与界面的松耦合,关键功能从界面代码中分离出来。
    • 第五,数据处理进度可以实时追踪,跟踪进度如下图:

      

  • 软件Bug:

    •   之前的软件的一个缺点是代码冗余度较大,功能代码和界面耦合较为紧密(主界面代码长度为1000+)在本软件中将主要功能与界面分离出来,做到松耦合。
代码冗余 两个getTagNo函数、getWebpageNo函数分别在MainWindow类和InputNewData类中定义了
代码冗余 多个process函数(processpdf和 process函数类似;baiduzhidaoprocess、stackoverflowprocess、cnblogsprocess、sosowenwenprocess、dewenprocess基本一样;判断函数baiduzhidao、stackoverflow、sosowenwen、cnblogs、dewen完全可以合并)非常类似,为此我们进行了合并
    •   现阶段的追踪进度方面存在一些小问题。
    •   一旦数据库关闭,我们的程序存在不能继续访问的问题。
    •   数据加载进度慢,没能够快速处理文本文件。

  个人总结:

  1. 李剑锋:在Alpha阶段我们完成了既定的目标,但是可能对于团队中所遇到的问题难度估计不够,遇到一个个看似简单的问题往往需要耗费相当多的时间,以这一方面在Beta需要作出更大的改变。
  2. 陈谋:这一次我们组的团队协作方面做得不够好,主要开发是由我来做,所以收获也是最大的。首先我对于对于工程的把握更加明确。学会了数据的与处理的工作,当然也在阅读代码的过程中明确翻译、关键词抽取等数据处理方面的知识。
  3. 卢惠明:完成了关键词抽取之后,不敢说我对于数据处理的一个重要方面有了没明确认识,但是至少可以说我已经可以在学校智能所做些事情了。
  4. 刘夕霆:对于网站的一些知识,我已经有了较高的认识。特别是对于问答网站的一些处理方面,对于网页规格方面也有了较高的认识。
  5. 仉伯龙:我处理不少事情,但是我感觉学的不是特别多。我相信只要我们不断进取,不断探索,我一定能够学到更多,明白更多,最后在理论知识、实践知识方面有了更高的认识。
  6. 潘成鼎:我由于中途有些事没能够参与到系统的开发,所以我只能说声抱歉。如果下阶段我还能在这一组,我一定要为团队做出必要的贡献。

  我们在这阶段开始时对于数据处理的认识不是特别明确,所以开始时候我们没有进行良好的技术分工。进度较为缓慢。所以在Beta阶段,将由陈谋作为PM,对团队任务进行细分,对需求进行明确,对架构进行规划。最后交给每一位组员明确的任务,从而让每一个组员有较高的提升。

Pipeline Alpha版本项目展示的更多相关文章

  1. Alpha版本项目展示

    成员简介 谷大鑫: 热爱编程,技术狂魔,可以对感兴趣的技术钻研到茶饭不思,队伍的技术中坚.标签:整个队伍里最靠谱的人. 个人博客:http://www.cnblogs.com/nrm1/ 杨金键: 未 ...

  2. Alpha版本项目展示要求(加入模板)

    Alpha版本展示的时间暂定为11月17日课上,提前到13:00开始.如有变动,另行通知. Alpha版本项目展示要求如下: 不得使用PPT,展示所用的资料必须发表在博客上. 现场演示你们发布的软件. ...

  3. 【Phylab2.0】Alpha版本项目展示

    团队成员 冯炜韬(PM)http://www.cnblogs.com/toka 岳桐宇(后端)http://www.cnblogs.com/mycraftmw 杨子琛(测试&LaTeX)htt ...

  4. Alpha版本项目展示要求

    Alpha版本展示的时间暂定为11月17日课上.如有变动,另行通知. 在Alpha阶段项目评审会上, 每个团队有12分钟展示时间,10分钟问答和机动时间,我们的展示也不需要PPT,大家把要展现的东西写 ...

  5. 《易货》Alpha版本项目展示

    一.团队成员和个人博客地址 PM:董元财 开发人员:胡亚坤,董元财,刘猛 测试人员:益西多吉,马汉虎 团队名:bestRW 团队博客地址:http://www.cnblogs.com/niceRW/ ...

  6. Alpha版本项目展示得分

    团队名称 得分 newbe 80 C705 100 ourteam 60 sevens 50 sixsix 190 dxteam 75 hots 200 Echo 90

  7. [Alpha阶段]项目展示博客

    目录 Alpha阶段项目展示 1.团队成员介绍 2.工程相关信息 (1)我们的用户 (2)产品表现 (3)团队分工 (4)项目管理 (5)测试 (6)文档 (7)用户调研 3.项目信息 (1)实际进展 ...

  8. 【Alpha】项目展示

    团队成员介绍 大娃 后端开发人员,主要工作为后端开发,文档撰写. 大娃的个人博客 二娃 PM,主要工作为项目进度把控,平日例会的记录,例会博客及部分其他博客的撰写. 二娃的个人博客 三娃 PM,主要工 ...

  9. 秘制牛肉Alpha阶段项目展示

    秘制牛肉Alpha阶段项目展示 1.团队成员和个人博客 · 左顺:"我是左顺,秘制牛肉队开发人员". · 王尖兵:"C,java,html5都会一点的菜鸡,没做过团队项目 ...

随机推荐

  1. 用JS制作《飞机大作战》游戏_第3讲(玩家发射子弹)-陈远波

    一.公布上一讲中玩家飞机上.下.右移动实现的代码: /*=========================键盘按下事件 keycode为得到键盘相应键对应的数字==================== ...

  2. 【Android自动化】编写一个log模块,输出至控制台,供程序运行查看

    # -*- coding:utf-8 -*- import logging def get_log(name): log = logging.getLogger(name) log.setLevel( ...

  3. centos7装机教程

    U盘启动电脑进入安装界面 正常情况下你应该会看到下面的这个界面: 选择第一项,然后按TAB键,然后会看到下面这个: 3.修改第二步中按TAB键出来的命令 将命令修改为:>vmlinuz init ...

  4. 原生JS简单的无缝自动轮播

    最近在不断的加强巩固js.在学习jq和vue之后发现很多东西其实都是不明所以,有些底层的东西自己不懂,到头来也只是一昧的使用,一直在用别人的东西,对自己的成长帮助也不大. 万丈高楼平地起,基础打扎实了 ...

  5. angularjs ngRoute和ui.router对比

    ngRoute模块是angularjs自带的路由模块,ui.router是一个第三方路由模块,接下来将对两者进行一个对比: ng-router(angular-router.js) ng-view n ...

  6. MYSQL一次千万级连表查询优化(二) 作为一的讲解思路

    这里摘自网上,仅供自己学习之用,再次鸣谢 概述: 交代一下背景,这算是一次项目经验吧,属于公司一个已上线平台的功能,这算是离职人员挖下的坑,随着数据越来越多,原本的SQL查询变得越来越慢,用户体验特别 ...

  7. PHP 使用 jwt 方式用户身份认证

    封装类 // +---------------------------------------------------------------------- // | Created by PhpSt ...

  8. JSON无限折叠菜单编写

    最近看了一篇关于JSON无限折叠菜单的文章 感觉写的不错,也研究了下代码,所以用自己编码方式也做了个demo 其实这样的菜单项在我们网站上或者项目导航菜单项很常见的一种效果,特别是在一些电子商务网上上 ...

  9. python+jenkins 构建节点环境编译器配置问题

    python 编译器默认添加环境变量路径 

  10. abp 将abp项目发布之后挂在IIS上无法访问嵌入资源的问题

    在本地调试是能够正常访问到写在另一个程序集中的嵌入资源,但是发布之后 挂在IIS上却不能访问. 整了半天没找到原因.后来发现是发布时配置错误造成的:取消勾选precompile during publ ...