搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目。

About LDC:

LDC,全名Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业,成立于1992年,目前由宾夕法尼亚大学负责主要运营。
LDC最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,是主要的科研语言资源管理分发机构。
现在每年LDC大概新增30~36个语料。

Join LDC:

任何机构交钱就可以加入LDC,加入后就成为了LDC的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以PTB语料为例,会员价0,非会员价1700刀。
那么要成为会员每年的年费是多少呢?

对于非盈利机构,价格2400刀/年
对于盈利性机构,价格24000刀/年

在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样……网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。

Data:

LDC的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊= =

浏览全部语料:https://catalog.ldc.upenn.edu/byyear

Data Scholarships:

LDC给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:

1、是在校本科生或研究生(没有博士?还是说graduate student包含了博士?),而且所在学校没有买LDC的数据。
2、本人有很好的研究计划而且是真穷……支付不起那个数据费用。

申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。

一年有两个申请期,春秋各一次。

----

下面开始个人吐槽:

黑……真TM黑……
不过想想visual studio要上千刀,matlab要上千刀……我真有点怀疑要多有钱才能搞学术……

ref:

https://www.ldc.upenn.edu/about/ldc-overview

Linguistic Data Consortium (LDC)的更多相关文章

  1. 了解一下LDC

    转自: Linguistic Data Consortium (LDC) 因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法.... 搞 NLP 的人经常会听到一个神秘的 ...

  2. (转)awesome-text-summarization

    awesome-text-summarization 2018-07-19 10:45:13 A curated list of resources dedicated to text summari ...

  3. Is this Sentence Difficult? Do you Agree? -paper

    术语: 数据lemma:词根,词元(词的基本形式,如名词单数或动词的不定式形式) content words:实词part-of-speech:词性object-relative clauses an ...

  4. Penn Treebank

    NLP中常用的PTB语料库,全名Penn Treebank.Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析. 语料来源为:1989年华尔街日报语 ...

  5. Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper

    abstract句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力.手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则. ...

  6. NLP常用信息资源

    ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文.http://www.aclweb.org/anthology-new/ LDC: The Linguist ...

  7. Kaldi学习手记(一):Kaldi的编译安装

    下载 安装git sudo apt-get install git 下载Kaldi git clone https://github.com/kaldi-asr/kaldi.git kaldi-tru ...

  8. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  9. Speech Super Resolution Generative Adversarial Network

    博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10874993.html 论文作者:Sefik Emre Eskimez , Kazuhito K ...

随机推荐

  1. 绝对定位多个字居中显示的css

    在工作中遇到一种情况,例如把一个div元素绝对定位到一个位置,但是该元素中的文字个数不确定,还要保证始终该文字是居中显示,则可以定义两个div,外层div绝对定位并加一个宽度,内层div居中 .box ...

  2. 12 go实现几中基本排序算法

    include 冒泡排序 插入排序 快速排序 选择排序 这4种算法的内涵不再做解释了 github地址 冒泡排序算法 func maoPao(intSlice []int) []int { /* 冒泡 ...

  3. 在Unity中查找缺失的引用

    这篇博客是查找unity中缺失引用的一个简单简短的解决方案.你可以从GitHub上获取源码. 缺失引用 一个丢失引用与没有引用(在检视表显示“None”)是完全不同的概念.这些友各种原因造成,比如:把 ...

  4. 修改centos的时间,解决时间比本地实际时间快了8小时

    1.vi /etc/sysconfig/clock #编辑文件ZONE="Asia/Shanghai"UTC=false #设置为false,硬件时钟不于utc时间一致ARC=fa ...

  5. alsa wav

    wav_parser.h文件: //File : wav_parser.h //Author : Loon <sepnic@gmail.com> #ifndef __WAV_PARSER_ ...

  6. SQL SERVER发布与订阅

    一.配置分发 1.配置分发服务器,注:配置发布与订阅,连接SQLSERVER必须用服务器名登录 2.配置分发 3.选择分发服务器 4.选择快照文件夹 5.设置此文件夹的读写权限为everyone 6. ...

  7. it码农之心灵鸡汤(一)

    到底该怎么面对工作,到底怎么面临人生.到底怎么面临青春,对于打工的人来说这些一直都是心中一直无法解惑的谜团. 对于人们怎样看待工作,以前华为创始人任正非说过:非常多人问我,来公司工作有没有双休?需不须 ...

  8. linux-满足多字符条件统计行数

    测试数据: 2017-10-24 14:14:11:1123 [ INFO] order_type=add,order_id=9150882564978710367790292017-10-24 14 ...

  9. 使用composer进行依赖管理:以guzzle为例

    今天突然发现一个不错的php http客户端库guzzle,欣喜不已,跃跃欲试.打开guzzle文档,发现需要composer做依赖管理.之前没有接触过composer,正好以此学习下,也蛮好! 本文 ...

  10. FTP文件下载

    using EnterpriseDT.Net.Ftp; /// <summary> /// 下载FTP文件 /// </summary> /// <param name= ...