项目框架——NABC模型

一.N(Need需求)

我们组主要的用户对象是第三小组——UI小组的同学们,因此我们的用户需求就是他们的数据需求。

1)提供给UI小组整理好的数据库,和前一组讨论好数据结构。

2)给每一条记录添加合理的标签,既不使数据结构过于麻烦,也不能增加方便UI小组进行查询。

3)作出爬取步骤的UI,方便UI小组知道软件的每个功能,并有助于他们更好的理解我们定义的每个接口和方法。

4)对英文网页做翻译,并以中文的形式存入数据库(暂定采用较好的Google翻译)

5)支持继续向pipeline中输入新内容。

二.A(Approach 做法)

1)对于爬到的数据先进行去噪处理,提取关键信息。(例如问题信息,回答信息,领域关键词)

2)利用所学的sql server数据库的知识,对上一组crawler爬到的数据进行分组聚类,相应的贴上标签。

3)识别英文网页,对其进行中文翻译后再将其存入数据库。

以上提到的做法中主要要解决以下几个技术难点:

1)提取信息是如何准确匹配信息。

2)和前一组爬虫小组(crawler)商量好数据结构,以便于决定好数据提取的形式

3)决定标签如何分配,从而得到一个清晰的分类

4)翻译时除了借用谷歌翻译,还要借鉴其他良好的翻译算法,从而得到最佳的翻译文本

三.B(Benefit 好处)

像前面提到的一样,由于我们组的任务不是具体的面向用户,因此benefit方面就提一下和学长相比的改进:

1)增加了可以根据需要实时添加数据记录的功能

2)数据标签的设计更加贴合实际情况,具体情况具体分析

3)翻译更加贴合中文

四.C(Competitors 竞争)

我们这个层次暂时不存在竞争,因为第一,我们也不知道其他同类系统的这一层面是如何实现的,第二,我认为竞争性的主要体现是表现在学霸组三个分组的综合功能上。

由于做爬虫的小组还没有决定好结束时爬取的网页、问答对、PDF文件、视频文件等的数量,以及抽取信息的数量,因此我们组预估的信息基础是建立在上一届项目的基础上。

上一届的爬虫小组爬到的结果为32万个网页,包括问答对,PDF,美国名校计算机学院网页,其中问答对最多,近28万个。我们计划处理的网页数量应该是在这个数据基础上只增不减吧(具体还要看爬虫小组的实际情况)。

——edited by 柴泽华

Teamwork——Week4 团队项目之NABC的更多相关文章

  1. Teamwork——Week4 团队分工和预估项目时间

    由于我们给每个组员预估的每天用在该团队项目的时间为2h左右,因此我们的时间计算也已2h为基数.下面就是我们的团队分工和预估项目时间. 任务编号 实现人员 任务详细描述 预估时间 任务0 全体组员 看学 ...

  2. 团队项目之NABC

    Time:2013-10-22 Author:wang 一个成功的人,总是知道如何管理自己的时间,如何让自己的时间得到最充分最有效的利用.对学生一族而言,课业负担重,各种课程.各种活动.各种社团,如果 ...

  3. 针对“来用”团队项目之NABC分析

    本项目特点之一:扩展性强 NABC分析: N(need):我们这个开发的这个软件主要是集娱乐软件和实用工具于一身的大容器,这里面有很多应用程序,针对不同用户需要,至少有一款应用程序能够满足用户的需要, ...

  4. 团队项目(NABC分析)

    我们团队开发的是<校园导航>软件 (1)N(Need需求) 我们的团队主要考虑到我们学校没有自己的校园导航,有时会给同学及参观人员带来不便,又看到好多学校都有自己的导航,所以就从这个需求方 ...

  5. 软件工程实践小队--团队项目NABC

    团队项目的NABC 1) N (Need 需求) 作为一个网上教学问答系统,用户的基本需求很明确,即为:提问.搜索.浏览.回答.编辑.评论.附加需求还有: 获取金币.提升等级. 提问:关于一门学科,用 ...

  6. 团队项目NABC分析

    我们的团队项目是“来用”实用工具集合软件,我针对我们项目功能丰富的特点进行NABC分析. N (Need 需求):我们的软件正是从最大程度上满足用户需求出发,因为软件集合了不同种类的功能,可以满足用户 ...

  7. 团队项目的NABC

    我们团队项目是做一个基于PC端的截屏软件,我觉得一个好的截屏软件需要具备磁性吸附的功能.当你需要对某个图像或者是其他的什么截屏的时候,精度比较高,不需要那些边框外的东西,磁性吸附就是在你选中的时候尽管 ...

  8. 结队开发项目——七巧板NABC需求分析

    NABC需求分析   我们团队项目为七巧板取了个洋气的名字叫7-magic. 怀念过去,把握现在,展望未来:立足经典,勇于创新,开创一个七巧板的新时代. 特点:可以保存图片或上传至微信平台    N ...

  9. 团队项目:Recycle

    一.团队名字 地球保卫队(EPT) 二.团队阵容 1.项目部分 小组成员思维活跃,仅仅在一节课的时间里提出了n个颠覆软件开发界的思维的idea,最后在层层pk最后留下了八个惊世骇俗的想法.其中包括了要 ...

随机推荐

  1. css中float left与float right的使用说明

    转自:http://www.jb51.net/css/33740.html   脚本之家 No! 要注意以下几点: 1. 浮动元素会被自动设置成块级元素,相当于给元素设置了display:block( ...

  2. Large-Scale Named Entity Disambiguation Based on Wikipedia Data

    Large-Scale Named Entity Disambiguation Based on Wikipedia Data 基于维基百科数据的大规模命名实体消岐 1.引言 1.1. 概念 实体(e ...

  3. 显示或隐藏一个Grid

    The Rowset class contains two methods that can be used to show and hide all rows: ShowAllRows() Hide ...

  4. KMP串匹配算法解析与优化

    朴素串匹配算法说明 串匹配算法最常用的情形是从一篇文档中查找指定文本.需要查找的文本叫做模式串,需要从中查找模式串的串暂且叫做查找串吧. 为了更好理解KMP算法,我们先这样看待一下朴素匹配算法吧.朴素 ...

  5. 在c#中使用mongo-csharp-driver操作mongodb

    1)下载安装 下载地址:http://github.com/mongodb/mongo-csharp-driver/downloads 编译之后得到两个dll MongoDB.Driver.dll:顾 ...

  6. Lua 练习中的Bug 以及日志

    使用 Lua 中的table.getn获得数组的table的长度:运行失败-- > t ={1,2,3 } > print(table.getn(t)) stdin:1: attempt ...

  7. web.config的奇淫巧技

    <connectionStrings configSource="db.config"/> 外部文件db.config: <connectionStrings&g ...

  8. 6.python字符串-内置方法列举

    所谓内置方法,就是凡是字符串都能用的方法,这个方法在创建字符串的类中,下面是总结: 首先,我们要学习一个获取帮助的内置函数 help(对象) ,对象可以是一个我们创建出来的,也可以是创建对象的那个类, ...

  9. JVM调优总结10-调优方法

    JVM调优工具 Jconsole,jProfile,VisualVM Jconsole : jdk自带,功能简单,但是可以在系统有一定负荷的情况下使用.对垃圾回收算法有很详细的跟踪.详细说明参考这里 ...

  10. [div+css布局]命名规则

    //首页可能碰到的 页头:header登录条:loginBar标志:logo侧栏:sideBar广告:banner导航:nav子导航:subNav菜单:menu子菜单:subMenu搜索:search ...