转自: Linguistic Data Consortium (LDC)

因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法。。。。

搞 NLP 的人经常会听到一个神秘的名字 LDC,因为大量的论文所使用的数据都来自于 LDC,本文就来揭露其神秘面目。

About LDC:

LDC,全名 Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业。
成立于 1992 年,目前由宾夕法尼亚大学主要运营。
LDC 最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,成为主要的科研语言资源管理分发机构。
现在每年 LDC 大概新增 30~36 个语料。

Join LDC:

任何机构交钱就可以加入 LDC,加入后就成为了 LDC 的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以 PTB 语料为例,会员价 0,非会员价 1700 刀。
那么会员价是多少呢?

对于非盈利机构,价格 2400 刀 / 年
对于盈利性机构,价格 24 刀 / 年

在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样…… 网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。

Data:

LDC 的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊 = =

浏览全部语料:https://catalog.ldc.upenn.edu/byyear

Data Scholarships:

LDC 给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:

1、是在校本科生或研究生(没有博士?还是说 graduate student 包含了博士?),而且所在学校没有买 LDC 的数据。
2、本人有很好的研究计划而且是真穷…… 支付不起那个数据费用。

申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。

一年有两个申请期,春秋各一次。

-

下面开始个人吐槽:

黑…… 真 TM 黑……
不过想想 visual studio 要上千刀,matlab 要上千刀…… 我真有点怀疑要多有钱才能搞学术……

ref: https://www.ldc.upenn.edu/about/ldc-overview

了解一下LDC的更多相关文章

  1. JVM字节码之整型入栈指令(iconst、bipush、sipush、ldc)

    官网:http://docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html 原文地址:http://www.linmuxi.com/2016/02 ...

  2. 运行时常量池中的符号引用/String.intern() /ldc指令

    运行时常量池,之前放在方法区(永久代)中,1.8之后被转移到元空间,放到了native memory中. 具体的数据结构是:(看对象的内存布局,句柄访问还是对象头中保存指向类的元数据的指针,这里以对象 ...

  3. Linguistic Data Consortium (LDC)

    搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目. About LDC: LDC,全名Linguistic Data Consortium, ...

  4. 003-整型入栈指令(iconst、bipush、sipush、ldc)

    一.概述 官网:http://docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html参考地址:http://www.linmuxi.com/201 ...

  5. (转)ARM协处理器主要用途 及其 指令CDP LDC STC MCR MRC介绍

    原文地址:http://zqwt.012.blog.163.com/blog/static/120446842010111610612200/ ARM 微处理器可支持多达 16 个协处理器,用于各种协 ...

  6. jvm源码解读--11 ldc指令的解读

    写一个java文件 public static void main(String[] args) { String str1="abc"; String str2 ="a ...

  7. 第20篇-加载与存储指令之ldc与_fast_aldc指令(2)

    ldc指令将int.float.或者一个类.方法类型或方法句柄的符号引用.还可能是String型常量值从常量池中推送至栈顶. 这一篇介绍一个虚拟机规范中定义的一个字节码指令ldc,另外还有一个虚拟机内 ...

  8. Mono为何能跨平台?聊聊CIL(MSIL)

    前言: 其实小匹夫在U3D的开发中一直对U3D的跨平台能力很好奇.到底是什么原理使得U3D可以跨平台呢?后来发现了Mono的作用,并进一步了解到了CIL的存在.所以,作为一个对Unity3D跨平台能力 ...

  9. 背后的故事之 - 快乐的Lambda表达式(一)

    快乐的Lambda表达式(二) 自从Lambda随.NET Framework3.5出现在.NET开发者眼前以来,它已经给我们带来了太多的欣喜.它优雅,对开发者更友好,能提高开发效率,天啊!它还有可能 ...

随机推荐

  1. kubernetes部署

    [自动安装] 一:操作环境 操作系统    centos7 防火墙selinux #systemctl stop firewalld && systemctl disable fire ...

  2. 51Nod 1175 区间中第K大的数 (可持久化线段树+离散)

    1175 区间中第K大的数 基准时间限制:1 秒 空间限制:131072 KB 分值: 160 难度:6级算法题   一个长度为N的整数序列,编号0 - N - 1.进行Q次查询,查询编号i至j的所有 ...

  3. 【刷题】BZOJ 4289 PA2012 Tax

    Description 给出一个N个点M条边的无向图,经过一个点的代价是进入和离开这个点的两条边的边权的较大值,求从起点1到点N的最小代价.起点的代价是离开起点的边的边权,终点的代价是进入终点的边的边 ...

  4. BZOJ.2212.[POI2011]Tree Rotations(线段树合并)

    题目链接 \(Description\) 给定一棵n个叶子的二叉树,每个叶节点有权值(1<=ai<=n).可以任意的交换两棵子树.问最后顺序遍历树得到的叶子权值序列中,最少的逆序对数是多少 ...

  5. 【Luogu P4074】[WC2013]糖果公园(树上带修改莫队)

    题目描述 Candyland 有一座糖果公园,公园里不仅有美丽的风景.好玩的游乐项目,还有许多免费糖果的发放点,这引来了许多贪吃的小朋友来糖果公园游玩. 糖果公园的结构十分奇特,它由 \(n\) 个游 ...

  6. NOIP2018初赛提高组复习提纲(By HGOI LJC)

    Download:https://pan.baidu.com/s/16khhFf_0RsUjJLETreb20w (PDF) https://pan.baidu.com/s/1BVZqLs3q1clZ ...

  7. NO.6: 若不想编译器提供自动生成的函数,就应该明确拒绝

    1.为驳回编译器自动生成函数的技能,可把这些函数的声明放入private,如果是继承类型可把base class的这些函数声明private,可在编译期间得到警告

  8. laravel 单元测试设置模拟时间

    有时候我们需要对一些超时的逻辑进行测试,需要等待一定的时间来验证超时逻辑是否生效. Carbon 库提供了 setTestNow 方法来设置一个虚拟的当前时间 使用这个特性的前提是:我们的待测试代码利 ...

  9. 百度钱包、百付宝、baifubao接入支付的常见问题

    [5004:参数非法,请检查输入参数后重试.]:检查是否缺少了其它必要的参数,我当时是缺少了order_no [5804,抱歉,订单创建失败,请联系客服处理]:即验证签名失败,这个只能参考文档进行处理 ...

  10. html5 canvas裁剪区域

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...