团队博客作业Week4 --- 学霸网站--NABC
1.需求(Need)
伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用。随着这些事物的发展,我们每个人都会接触到相当庞大的数据。如何在这些数据中找到自己需要的,如何给这些数据分门别类,如何做中英对照扩展用户量......这一切的一切,都是在考验IT工作者对于数据处理的能力。
必须需求:
为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取&Tagging这些技术。
所谓关键词,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用[1]。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础[2]。这在浩如烟海的文本信息中,迅速定位和理解所需要的信息显得尤为重要。
所谓Tag,是一种由用户自定义的、用于描述信息 [3]的关键词。Tagging是用户为信息赋予Tag的行为。Delicious,Flikr等Web2.0网站的发展促进了它的流行,使之成为社会化书签、相册服务、博客等网站的常见功能。但Tagging对用户来说是一种脑力负担不轻的行为:要将信息分类尚属不易,勿论描述信息。对一条信息而言,应该Tag类目还是属性?范畴应该更宽还是更窄?Tag越多越好、还是控制在一定数量内?尤其困难的是,由于并非事前规划,无法很好预计被Tag内容的发展,入门、维护并不轻松。但从目前网络发展形势而言——个人自生成内容(博文、图片、视频等)迅速增加,各类信息海量涌来——Tag可谓信息管理的强大利器。
杀手功能:
- 我们打算在翻译这块下功夫,以便提供可靠的翻译效果。现在很多学习系统都需要中英对照,我们这款学霸系统更应如此。这可能不是大多数用户的需求,但是做好这一点将有利于赢得更多的用户。
外围功能:
良好的UI设计
可移植性:系统能够在多平台上面使用
可扩展性:可以无需破坏底层的结构而增强功能
辅助功能
- 提供一系列皮肤,以便用户更加喜欢
2.做法 (Approach)
一、 良好的关键词抽取&Tagging算法有利于提高用户体验
- 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们采用TF-IDF的方法。
- TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF
实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。 - IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
- IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类 Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照 IDF 公式得到的 IDF 的值会小,就说明该词条 t 类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。
- Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法[4],一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。
二、良好的交互是用户极致体验的基础
- 好的UI设计不仅是让软件变得有个性有品味,还要让软件的操作变得舒适简单、自由,充分体现软件的定位和特点。界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。
- 如果我们将来要建网站,就一定要把握好人机交互,在第一时间赢得客户。通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。
三、准确的中英翻译效果有利于提升用户体验
- 一种简单的办法就是用把文章放到有道词典、Google翻译、百度翻译等翻译系统上面,选择最佳的翻译作为中英对照。
- 通过网上的开源的翻译源码,进行翻译。
3.好处 (Benefit)
我们当前的产品并非涵盖所有问题的相关信息,主要服务于学生群体。我们是在爬好了的文本中进行数据处理,从而有效的得到关键词和Tag,同时我们还提供中英对照翻译,让学生有更好的学习平台。
4.竞争 (Competitor)
类似本平台的产品种类繁多,不乏主流的搜索巨头推出的相关产品,如“百度知道”,“360问答”,“天涯问答”,“新浪爱问达人”。其次还有一些主流的论坛也提供相关的搜索功能。可以说,我们的这个模块只是这些产品内小的组成部分,但是我们拥有自己的优势。
一、规模较小,灵活性高。
对比百度之类的大型搜索网站,我们的服务群体相对而言规模较小,我们可以根据用户的反馈建议快速的调整相应版块。
二、领域单一,专业程度高
由于网站是会员制的,即通过账户绑定用户,所以自愿加入的用户多数为相关领域的人员,所以问答方面会有更多的专业参考性,同时还有系统收录的相关专业信息,为问题的解答提供专业的解答。
三、个性化设计
本产品附加了一些个性化功能,如音乐版块,用户自定义主页背景等功能。让用户能在分享专业知识的同时保持愉悦的身心。
发布位置:
我们所做的是学霸网站的子模块,初步打算先发布在北航内部,然后发到CSDN、Github等重要的IT平台上,当然越多越好,毕竟这能够提高面向用户的数量量,当然等项目逐步完善之后,我会申请域名和空间发布到外网。
预计用户:
通过小组成员的宣传,预计用户人数在300左右。
参考文献:
[1] 索红光, 刘玉树, 等.一种基于词汇链的关键词抽取方法 [J].中文信息学报, 2006, 20(6)
[2] 刘佳宾, 陈超, 等.基于机器学习的科技文摘关键词自动抽取方法[J].计算机工程与应用, 2007, 43(14)
[3]Ames, M., and Naaman, M. (2007). Why We Tag: Motivations for Annotation in Mobile and Online Media.Proceedings of the SIGCHI conference on Human factors in computing systems
[4]周浩,李翔,刘功申. 相关信息加权的自适应多标签分类算法[J].计算机应用软件,2015,32(1)
团队博客作业Week4 --- 学霸网站--NABC的更多相关文章
- 团队博客作业Week1 --- 团队成员简介
团队博客作业Week1 团队作业1 我们团队是一个以功能团队模式组建而成的团队,我们总共有5位队员,分别是:李剑锋.陈谋.卢惠明.潘成鼎.仉伯龙. 中间的那位就是李剑锋,我们的PM(项目经理).性格热 ...
- 团队博客作业- Week3
成员介绍 韩青长 测试 我是韩青长,技术小白,抱着对软工的好奇和对未来工作的憧憬选了这门课.暂时选择了测试的工作,也对开发和UI有一定兴趣.从前上帝创造了我们,现在轮到我们来创造自己的软件了~ 陈彦 ...
- 团队博客作业Week3 --- 项目选择&&需求疑问
项目选择 经过团队内所有成员一致探讨,我们团队选择完善和改进之学霸系统的第二个子模块,即:网站内容结构定义和数据处理.具体的要求如下:(摘自Xueba系统项目需求) 网站内容结构定义和数据处理(Con ...
- 团队博客作业week1——成员介绍
我们小组的成员由六人组成,其中包括一名七班的韩国同学. 1.玉钟焕同学 玉钟焕是七班的同学.由于老师为了让我们尽早体验与不熟悉的同学共同工作的环境而提出团队需要跨行政班.于是我们便邀请钟焕同学加入我们 ...
- 团队博客作业Week2 --- 学长学姐访谈录
## 团队作业2 ## ### 团队一 ### 这个团队中组员是位研一的学姐,她的软件工程老师是姚淑珍,当时她们团队总共有4个人,而且她们都很努力,但是可能是最后团队的作品不太理想,她们的软件并没有上 ...
- 团队博客作业Week1
Study the projects done by previous student groups - View their blog site, use their software, email ...
- 团队博客作业Week1 Team Homework #3软件工程在北航
这次我们采访了一位大四的学姐,让她简单地谈了谈去年学习软件工程的经历和感受. 在完成软件工程大作业的过程中,由于计划安排与实际脱节,导致时间前松后紧,平均每周花在这门课上的时间大约有8个小时. 项目完 ...
- week3 团队博客作业
团队自我介绍地址: http://www.cnblogs.com/liuliudashun/p/5919555.html
- 团队博客作业Week5 --- 团队贡献分--分配规则
团队会议 时间:公元2015年10月26日22时3分20秒 地点:宿舍楼716房间 与会人员:陈谋,李剑锋,卢惠民,刘夕霆,仉伯龙,潘成鼎. 会议内容:今天的组会主要讨论的是项目团队贡献分的计算方式, ...
随机推荐
- 学习笔记·堆优化$\mathscr{dijkstra}$
嘤嘤嘤今天被迫学了这个算法--其实对于学习图论来说我内心是拒绝的\(\mathscr{qnq}\) 由于发现关于这个\(\mathscr{SPFA}\)的时间复杂度\(O(kE)\)中的\(k \ap ...
- 用kubeadm 搭建 高可用集群问题记录和复盘整个过程 - 通过journalctl -u kubelet.service命令来查看kubelet服务的日志
1.根据 https://github.com/cookeem/kubeadm-ha/blob/master/README_CN.md 去搭建ha集群,遇到几个问题: runtime networ ...
- KVM虚拟机IO处理过程(一) ----Guest VM I/O 处理过程
虚拟化技术主要包含三部分内容:CPU虚拟化,内存虚拟化,设备虚拟化.本系列文章主要描述磁盘设备的虚拟化过程,包含了一个读操作的I/O请求如何从Guest Vm到其最终被处理的整个过程.本系列文章中引用 ...
- Vue脚手架搭建步骤
Vue脚手架的搭建步骤 1. 去node.js官网下载node.js并安装,如下图: 2. 找到下载的文件并点击安装: 一直到finish完成.安装成功 3. 通过DOS密令打开: 输入: ...
- echarts显示X轴最后一个lable
代码: xAxis: [ { axisLabel: { showMaxLabel: true } } ]
- 理解IaaS、PaaS、SaaS 的区别
作者:何足道链接:https://www.zhihu.com/question/21641778/answer/62523535来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
- 游戏手柄(JoyStick)编程学习笔记(2)
在我的上一篇博客中(http://blog.csdn.net/liyuanbhu/article/details/51714045),介绍了通过 multimedia joystick API 来访问 ...
- 7 stark组件介绍、配置、2层url
1.django的admin配置 model.py from django.db import models # Create your models here. class UserInfo(mod ...
- 3 CRM 销售与客户 我的客户,公共客户池
1.销售与客户的表结构 1.公共客户与我的客户 ---公共客户(公共资源) 1.没有报名 2.3天没有跟进 3.15天没有成单 客户分布表 龙泰 男 yuan 2018-5-1 3天未跟进 龙泰 男 ...
- POM.XML文档汉化
#class_issueManagement project 所述 <project> 元素是描述符的根.下表列出了所有可能的子元素. modelVersion:String:声明此POM ...