NLP的比赛和数据集
整理了NLP领域的比赛、数据集、模型
| 比赛 | 网站 | 主办方(作者) |
|---|---|---|
| decaNLP | http://decanlp.com/ | Salesforce |
| CLUE | https://github.com/CLUEbenchmark/CLUE | 中文任务基准 |
| GLUE | https://gluebenchmark.com/tasks | |
| BioBERT | https://github.com/dmis-lab/biobert | 生物医学领域的NLP任务 |
| ERNIE | https://github.com/PaddlePaddle/ERNIE | 百度飞桨 |
| ALBERT |
decaNLP
自然语言十项全能多任务挑战
Natural Language Decathlon (decaNLP) 是一个新的基准,要求单独的系统能够完成10项独立的自然语言任务。
- 问答 Stanford Question Answering Dataset (SQuAD 1.1)
- 机器翻译 International Workshop on Spoken Language Translation (IWSLT),
- 自动摘要 CNN/DailyMail (CNN/DM) corpus.
- 自然语言推理 Multi-Genre Natural Language Inference Corpus (MNLI).
- 情感分析 Stanford Sentiment Treebank (SST),
- 语义标签标注 QA-SRL 1.0.
- 关系抽取 QA-ZRE,
- 面向全域的对话 Wizard of Oz (WOZ)
- 语义解析 WikiSQL 【Seq2SQL,https://github.com/salesforce/WikiSQL】
- 常识推理 Modified Winograd Schema Challenge, MWSC)
评测-GLUE
CoLA、 SST-2、 MRPC、 STS-B、 QQP、 MNLI-m、 QNLI、 RTE

评测-CLUE
中文任务基准评测CLUE
AFQMC:蚂蚁语义相似度(Acc);
TNEWS:文本分类(Acc);
IFLYTEK:长文本分类(Acc);
CMNLI: 自然语言推理中文版;
COPA: 因果推断;
WSC: Winograd模式挑战中文版;
CSL: 中国科学文献数据集;
模型-BioBERT
https://github.com/dmis-lab/biobert
- NER
命名实体识别 - RE
关系抽取 - QA
问答
模型-ERNIE
https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md
- 自然语言推断 XNLI
- 阅读理解 DuReader、CMRC2018、DRCD
- 命名实体识别 MSRA-NER(SIGHAN2006)
- 情感分析 ChnSentiCorp
- 问答任务 NLPCC2016-DBQA
- 语义相似度 LCQMC、BQ Corpus
模型-ALBERT
模型-TinyBERT
NLP的比赛和数据集的更多相关文章
- NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~
~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...
- 如何在nlp问题中定义自己的数据集
我之前大致写了一篇在pytorch中如何自己定义数据集合,在这里如何自定义数据集 不过这个例子使用的是image,也就是图像.如果我们用到的是文本呢,处理的是NLP问题呢? 在解决这个问题的时候,我在 ...
- 自然语言处理(NLP)入门学习资源清单
Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. ...
- 微软名人数据集 ms_celeb_1m 处理(MsCelebV1-Faces-Aligned.tsv)python脚本
本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...
- 自然语言处理(NLP)
苹果语音助手Siri的工作流程: 听 懂 思考 组织语言 回答 这其中每一步骤涉及的流程为: 语音识别 自然语言处理 - 语义分析 逻辑分析 - 结合业务场景与上下文 自然语言处理 - 分析结果生成自 ...
- 卷积神经网络(CNN)在句子建模上的应用
之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献: Kim Y. Convolutional neural n ...
- 转:netflix推荐系统竞赛
原文链接:Netflix recommendations: beyond the 5 stars (Part 1), (Part 2) 原文作者:Xavier Amatriain and Justin ...
- 基于hadoop的图书推荐
根据在炼数成金上的学习,将部分代码总结一下在需要的时候可以多加温习.首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型:分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型:首先分 ...
- ms_celeb_1m数据提取(MsCelebV1-Faces-Aligned.tsv)python脚本
本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...
随机推荐
- Ubuntu安装MySQL密码初始化问题
在Ubuntu上使用sudo apt-get install mysql-server mysql-common 命令安装MySQL以后,安装过程中没有提示输入密码.然后使用mysql -u root ...
- javascipt——jQuery
1.首先需要导入jQuery1.12.4.js文件,把文件和当前目录放同一目录下.在<body>中写上<script scr = 'jQuery1.12.4.js'><s ...
- 开源分布式系统Druid简谈
介绍 Druid是一个拥有大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析.尤其是当发生代码部署.机器故障以及其他产品系统遇到宕机等情况时,Dru ...
- 页面布局 Wrap 组件 和 RaisedButton按钮
一.RaisedButton 定义一个按钮 Flutter 中通过 RaisedButton 定义一个按钮.RaisedButton 里面有很多的参数,只讲简单的进行使用. return Raised ...
- PTA喊山
喊山 喊山,是人双手围在嘴边成喇叭状,对着远方高山发出“喂—喂喂—喂喂喂……”的呼唤.呼唤声通过空气的传递,回荡于深谷之间,传送到人们耳中,发出约定俗成的“讯号”,达到声讯传递交流的目的.原来它是彝族 ...
- HTTPS 学习
问题 数字签名的作用是什么? 为什么 HTTPS 是安全的 CA存在的动机是什么 客户端的公钥的都是一致的吗? 概述 这一节我们将要讲HTTPS,为什么说HTTPS是安全的,而HTTP是不安全的呢,这 ...
- python练习:编写一个程序,要求用户输入一个整数,然后输出两个整数root和pwr,满足0<pwr<6,并且root**pwr等于用户输入的整数。如果不存在这样一对整数,则输入一条消息进行说明。
python练习:编写一个程序,要求用户输入一个整数,然后输出两个整数root和pwr,满足0<pwr<6,并且root**pwr等于用户输入的整数.如果不存在这样一对整数,则输入一条消息 ...
- 排序算法之冒泡排序的python实现
冒泡排序算法的工作原理如下: 1. 比较相邻的元素.如果第一个比第二个大(升序),就交换他们两个. 2. 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对.这步做完后,最后的元素会是最大 ...
- jdk基础提升
1. treeMap,treesSet 作用:1具有对应普通的Map,Set的功能,2.能排序Map和Set (依赖树的结构进行排序---中序循环) TreeSet<String> tr ...
- 【代码学习】PYTHON 函数
一.定义函数 def 函数名(): 代码 二.函数调用 #定义函数 def printme(str): print str return #调用函数 printme("SQYY1" ...