了解一下LDC
转自: Linguistic Data Consortium (LDC)
因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法。。。。
搞 NLP 的人经常会听到一个神秘的名字 LDC,因为大量的论文所使用的数据都来自于 LDC,本文就来揭露其神秘面目。
About LDC:
LDC,全名 Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业。
成立于 1992 年,目前由宾夕法尼亚大学主要运营。
LDC 最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,成为主要的科研语言资源管理分发机构。
现在每年 LDC 大概新增 30~36 个语料。
Join LDC:
任何机构交钱就可以加入 LDC,加入后就成为了 LDC 的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以 PTB 语料为例,会员价 0,非会员价 1700 刀。
那么会员价是多少呢?
对于非盈利机构,价格 2400 刀 / 年
对于盈利性机构,价格 24 刀 / 年
在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样…… 网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。
Data:
LDC 的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊 = =
浏览全部语料:https://catalog.ldc.upenn.edu/byyear
Data Scholarships:
LDC 给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:
1、是在校本科生或研究生(没有博士?还是说 graduate student 包含了博士?),而且所在学校没有买 LDC 的数据。
2、本人有很好的研究计划而且是真穷…… 支付不起那个数据费用。
申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。
一年有两个申请期,春秋各一次。
-
下面开始个人吐槽:
黑…… 真 TM 黑……
不过想想 visual studio 要上千刀,matlab 要上千刀…… 我真有点怀疑要多有钱才能搞学术……
ref: https://www.ldc.upenn.edu/about/ldc-overview
了解一下LDC的更多相关文章
- JVM字节码之整型入栈指令(iconst、bipush、sipush、ldc)
官网:http://docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html 原文地址:http://www.linmuxi.com/2016/02 ...
- 运行时常量池中的符号引用/String.intern() /ldc指令
运行时常量池,之前放在方法区(永久代)中,1.8之后被转移到元空间,放到了native memory中. 具体的数据结构是:(看对象的内存布局,句柄访问还是对象头中保存指向类的元数据的指针,这里以对象 ...
- Linguistic Data Consortium (LDC)
搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目. About LDC: LDC,全名Linguistic Data Consortium, ...
- 003-整型入栈指令(iconst、bipush、sipush、ldc)
一.概述 官网:http://docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html参考地址:http://www.linmuxi.com/201 ...
- (转)ARM协处理器主要用途 及其 指令CDP LDC STC MCR MRC介绍
原文地址:http://zqwt.012.blog.163.com/blog/static/120446842010111610612200/ ARM 微处理器可支持多达 16 个协处理器,用于各种协 ...
- jvm源码解读--11 ldc指令的解读
写一个java文件 public static void main(String[] args) { String str1="abc"; String str2 ="a ...
- 第20篇-加载与存储指令之ldc与_fast_aldc指令(2)
ldc指令将int.float.或者一个类.方法类型或方法句柄的符号引用.还可能是String型常量值从常量池中推送至栈顶. 这一篇介绍一个虚拟机规范中定义的一个字节码指令ldc,另外还有一个虚拟机内 ...
- Mono为何能跨平台?聊聊CIL(MSIL)
前言: 其实小匹夫在U3D的开发中一直对U3D的跨平台能力很好奇.到底是什么原理使得U3D可以跨平台呢?后来发现了Mono的作用,并进一步了解到了CIL的存在.所以,作为一个对Unity3D跨平台能力 ...
- 背后的故事之 - 快乐的Lambda表达式(一)
快乐的Lambda表达式(二) 自从Lambda随.NET Framework3.5出现在.NET开发者眼前以来,它已经给我们带来了太多的欣喜.它优雅,对开发者更友好,能提高开发效率,天啊!它还有可能 ...
随机推荐
- SSM 项目搭建 (IDEA)
好好想了想,还是准备给大家发一个简单的SSM的项目搭建教程. 我觉得通常来说,只是XML的配置文件可能让人头痛了点,其他的倒真不是问题. 不过话说回来,mybatis一直让我觉得用起来不方便.因为数据 ...
- CODE FESTIVAL 2017 qual B 题解
失踪人口回归.撒花\^o^/ 说来真是惭愧,NOI之后就没怎么刷过题,就写了几道集训队作业题,打了几场比赛还烂的不行,atcoder至今是蓝名=.= 以后还是多更一些博客吧,我可不想清华集训的时候就退 ...
- 【LOJ#10064】黑暗城堡
题目大意:定义一个无向图的最短路径生成树如下:在该无向图的生成树中,任意一个节点到根节点的距离均等于根节点到该节点的最短路.求有多少种最短路径生成树. 题解:首先跑一遍 dij 求出从根节点到每个节点 ...
- php错误日志
php错误日志 /usr/local/php/var/log/php-fpm.log」—————————
- bzoj千题计划233:bzoj 1304: [CQOI2009]叶子的染色
http://www.lydsy.com/JudgeOnline/problem.php?id=1304 结论1:根节点一定染色 如果根节点没有染色,选择其子节点的一个颜色,那么所有这个颜色的子节点都 ...
- Spring 学习01
一.Spring概念 1 spring是开源的轻量级框架 2 spring核心主要两部分: (1)aop:面向切面编程,扩展功能不是修改源代码实现 (2)ioc:控制反转, - 比如有一个类,在类里面 ...
- AngularJS入门基础——作用域
作用域$scope是构成AngularJS应用的核心基础,在整个框架中都被广泛使用,因此了解它是非常重要的. $scope对像是定义应用业务逻辑,控制器方法和视图属性的地方.作用域是视图和控制器之间的 ...
- UVALive 6467 Strahler Order
> 题目链接 题意:给定一个有向图,顶点代表水池,入度为零的定点代表水源,等级是1,他们延河道(有向边)冲撞,对于普通的水池来说,题目给定判断它等级的两个准则,问出度为零的那个点的等级是多少. ...
- Anaconda+django写出第一个web app(七)
今天来实现如何在页面弹出一些信息,比如注册成功后弹出注册成功的信息.这一点可以通过materialize里的Toasts来实现. django自带的messages可以告诉我们是否注册成功,以及注册失 ...
- perl6: Proc::Async (new)
# command with arguments my $proc = Proc::Async.new('whoami'); # subscribe to new output from out an ...