NLP相关资源
一 NLP相关资源站点
Rouchester大学NLP/CL会议列表
一个非常好的会议时间信息网站,将自然语言处理和计算语言学领域的会议,按照时间月份顺序列出。NLPerJP
一个日本友好人士维护的网站,经常对NLP近来热点进行评论,可以受到启发。初学者如何查阅自然语言处理(NLP)领域学术资料
初学者如何查阅NLP领域学术资料,作者为清华大学计算机系助理研究员刘知远。另外,刘还曾经翻译过《机器学习那些事儿》一文,原文刊登在ACM Communication上,刘翻译后发表在计算机学会通讯上。机器学习那些事儿。
另外,一个问题是,文本如何进行特征选择,特别是对于摘要任务中的以句子为单位时,如何进行向量空间表示,可以参考这一篇,实在不行的话,可以逐个尝试,从tf到tf*idf,从bool到完整,待尝试。52nlp
“我爱自然语言处理”网站,属于52系列,上面有适合入门时候的资料。主要包含两块内容,“资源”和“求职招聘”以及“课程图谱”。
二 Summarization摘要任务
看过论文就知道,在Summarization摘要任务上近些年的领军任务主要有:
万小军
此人生于1979年,至今仅35岁不到,本科硕士博士都在PKU完成。其硕士论文:一个用于中文新闻主题检测与追踪的原型系统
博士论文:基于文档结构关系的相似搜索与自动摘要技术
2000年7月在北京大学信息管理系获理学学士, 2003年7月在北京大学计算机科学技术系获理学硕士学位,2006年7月在北京大学信息科学技术学院获博士学位,博士论文获北京大学优秀博士论文奖。同年加入北京大学计算机科学技术研究所任助理研究员,2007年8月晋升为副研究员。2008年获北京大学宝洁奖教金,同年入选教育部新世纪优秀人才支持计划与北京市科技新星计划(B类),2010年获北京大学王选青年学者奖。
此人在Summarization任务上07年逆天,一次性在高水平会议上发表6篇论文。
目前已晋升为教授(研究员)。领导ICST北大计算技术研究所的LCWM(语言计算与互联网挖掘研究组)。
上述研究组在Summarization任务下成就显然。LiTao
中文名大概是 李涛,目前供职于FIU(佛罗里达国际大学),在Summarization任务上也是逆天存在,超过20+高水平论文。Li Wenjie
目前供职于 香港理工大学PolyU of HK。夏老师曾在04~06在港中文做过研究,与其有过合作。
三 我对Summarization任务的思考
MDS方向跨学科
首选,(Multi-)Document Summarization任务是跨学科的。从几个方面来看。第一,从处理的数据对象Data Object来看,属于Document 或者Text,属于对语言的载体-文本进行的处理,而且是用一些偏统计的方法,因此属于NLP/CL大类。此类相关的高水平会议不少。第二,从实现的方法Method来看,使用了一些包括图论,以聚类分类为代表的机器学习方法,因此可以划归到ML/AI大类。第三,从“数据”流Data Flow来看,在数据流上属于一种逆向生成,即从原始大量数据中,在有限的篇幅侠找出“重要且有价值”的信息,因此可以划归到DM大类。第四,从实用的大环境Application Envrionment来看,随着现今互联网浪潮,对互联网上的信息处理具有实际的应用价值,因此可以划归到Web大类。
怎样出成果
首先必须感叹,上述三人的勤奋与努力,在Summarization任务上著作等身。但作为一个具有逻辑思维的人,必须能看到事物的另一面。第一,科学研究并不是一蹴而就的。如果”论文数量“来看,Summarization任务出现了那么多论文,但从“应用”角度看,除了被Yahoo收购的应用Summly之外,并没有出现有价值的应用。科学论文的的评价标准时有限的,例如在Summarization任务中,自从Lin在2004年推出ROUGE标准,如果想让同行认可,就必须采用其标准。于是后来人前赴后继地陷入追求ROUGE得分高的目标中。固然,ROUGE得分高至少能代表方法一定程度上是有效的。但是否ROUGE高就绝对说明方法是最优的呢?完全不是。我猜测,从评审人或者Reviewer的角度来看,ROUGE得分只是一个载体,或者说是入门条件,当达到入门条件之后,他会考量你的工作是否介绍或者让人启发出“新的想法或观点”。学术活动例如国际会议的召开,总是求新的,要么是“新结果”,你的方法与别人很类似,或者稍加改进,然后从结果上体现出来有进步。要么是“新方法”,如果结果满足入门条件之后,从方法上完全与人不同,也算新,不过这时候需要一定程度的“自圆其说”,能够说明在结果上不太具有优越性但是在方法上足够有新意。
第二,评测标准真的对么首先,ROUGE的出现实现了在Evaluation上从“主观评测”到“量化”的飞跃。在04年之后的若干年,这种便于量化的方法为很多研究者带来了便利,更确切来说,为相关研究者带来“方向”。人们想做一件研究,却不太明白方法究竟好不好。如果有一个量化准则存在,同行之间也就少了猜忌。但是,从04年到14年,这种准则的有效性实际上是临近瓶颈的。例如在GenericMDS任务上,至今最优的方法在ROUGE-1上可以达到0.395+。而背后的事实是,有人做出了理论上的推测,即便是人工摘要,由于问题本身存在不太一致的主观性,不太可能超过0.41。因此,对于源于不一致主管的工作任务来说,在量化评测下,达到较为优秀即可,在其他方面说明“自圆其说”优越性即可。
NLP相关资源的更多相关文章
- Github项目推荐-图神经网络(GNN)相关资源大列表
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI研习社 作者|Zonghan Wu 这是一个与图神经网络相关的资源集合.相关资源浏览下方 ...
- iOS之在写一个iOS应用之前必须做的7件事(附相关资源)
本文由CocoaChina--不再犹豫(tao200610704@126.com)翻译 作者:@NIkant Vohra 原文:7 Things you must absolutely do befo ...
- 《玩转D语言系列》二、D语言现状、基本规定和相关资源介绍
这算是本系列文章的一个序吧,主要是为以后的学习做铺垫,文本分为三个部分,第一部分是对于网上一些比较旧的资料的问题的一些更正,当然我也不可能看过所有的资料,难免会有遗漏.第二部分是D语言最基本的规定,第 ...
- AngularJS的学习网站及相关资源整理
学习angularjs的网站及相关资源的整理,会不断更新. angularJs的官网:https://angularjs.org/ API文档:https://docs.angularjs ...
- ArcGis 在线地图相关资源
原文:ArcGis 在线地图相关资源 世界边界和地点:http://services.arcgisonline.com/ArcGIS/rest/services/Reference/World_Bou ...
- (原)Struts 相关资源下载
官网:http://struts.apache.org 点击[Download],进入页面如下,可以看到下载的资源: 点击[struts-2.3.20-all.zip],就能获取Struts2项目所有 ...
- C++相关资源
http://www.cnblogs.com/xi52qian/p/4186983.html语言ISO/IEC JTC1/SC22/WG21 - The C++ Standards Committee ...
- 转载——web前端相关资源总结
前端牛人博客:张克军.阮一峰.拔赤(李晶).拔赤(李晶)2.张鑫旭.梦想天空.阿当.泽飞.刘杰(嗷嗷).为之漫笔(李松峰).goddyzhao.hax的技术部落.周爱民.随网之舞.子鼠.司徒正美.ju ...
- 【转】在写一个iOS应用之前必须做的7件事(附相关资源)
转自:http://www.cocoachina.com/ios/20160316/15687.html 本文由CocoaChina--不再犹豫(tao200610704@126.com)翻译 作者: ...
随机推荐
- Grandpa's Estate - POJ 1228(稳定凸包)
刚开始看这个题目不知道是什么东东,后面看了大神的题解才知道是稳定凸包问题,什么是稳定凸包呢?所谓稳定就是判断能不能在原有凸包上加点,得到一个更大的凸包,并且这个凸包包含原有凸包上的所有点.知道了这个东 ...
- C语言中数据类型转换的学习
1. 整型和枚举类型数据的转换 测试代码如下: #include <stdio.h> typedef enum _E_TYPE_T { E_TYPE_1 = -1, E_T ...
- ecshop获取浏览器各个版本
<?php /** * 获得浏览器名称和版本 * * @access public * @return string */ function get_user_browser() { if (e ...
- 面试题 php随机获取概率结果
题目:随机输出“苹果”,“橘子”,“香蕉”要求输出“苹果”的概率为50%,“橘子”的概率为30%,“香蕉”的概率为20% 分析 方案一: 最常用rand(1,10)来处理 如果是5以下的输出苹果 6到 ...
- C#多线程(下) 分类: C# 线程 2015-03-09 10:41 153人阅读 评论(0) 收藏
四.多线程的自动管理(线程池) 在多线程的程序中,经常会出现两种情况: 一种情况: 应用程序中,线程把大部分的时间花费在等待状态,等待某个事件发生,然后才能给予响应 这一般使用ThreadPool(线 ...
- 【设计模式 - 7】之过滤器模式(Filter)
1 模式简介 过滤器模式(Filter)也叫标准模式(Criteria),这种模式允许开发人员使用不同的标准来过滤一组对象,通过逻辑运算以解耦的方式把它们连接起来. 2 实例 需求 ...
- 【设计模式 - 16】之迭代器模式(Iterator)
1 模式简介 迭代器模式是JAVA中非常常用的模式,List.Map.Set等常见集合中都封装了迭代器Iterator. 迭代器模式的介绍: 迭代器模式用于顺序访问集合对象中的元素,而不需要 ...
- 快速设计一个简单的WPF串口上位机
最近一直在学习UWP,其中有的技术参考了WPF,所以又回头再来学习WPF,感觉学的东西很杂,必须记录一下,不然时间长了还得忘掉,于是申请开始写博客,将学习的心得记录一下,以备后用.这次是因为公司内训, ...
- 阿里云 centos 部署javaweb 应用
今天在阿里云上部署了个javaweb应用,在此记录下步骤,以供下次使用. 服务器版本: 1.root登陆服务器 2.服务器安装FTP服务,或者直接使用winscp上传文件(简单),本文介绍安装FTP服 ...
- PHP运行出现Notice : Use of undefined constant 的完美解决方案
Notice: Use of undefined constant title - assumed 'title' in F:\wamp\www\load_myweb.php on line 22No ...