整理了NLP领域的比赛、数据集、模型

比赛 网站 主办方(作者)
decaNLP http://decanlp.com/ Salesforce
CLUE https://github.com/CLUEbenchmark/CLUE 中文任务基准
GLUE https://gluebenchmark.com/tasks
BioBERT https://github.com/dmis-lab/biobert 生物医学领域的NLP任务
ERNIE https://github.com/PaddlePaddle/ERNIE 百度飞桨
ALBERT

decaNLP

自然语言十项全能多任务挑战

Natural Language Decathlon (decaNLP) 是一个新的基准,要求单独的系统能够完成10项独立的自然语言任务。

  1. 问答 Stanford Question Answering Dataset (SQuAD 1.1)
  2. 机器翻译 International Workshop on Spoken Language Translation (IWSLT),
  3. 自动摘要 CNN/DailyMail (CNN/DM) corpus.
  4. 自然语言推理 Multi-Genre Natural Language Inference Corpus (MNLI).
  5. 情感分析 Stanford Sentiment Treebank (SST),
  6. 语义标签标注 QA-SRL 1.0.
  7. 关系抽取 QA-ZRE,
  8. 面向全域的对话 Wizard of Oz (WOZ)
  9. 语义解析 WikiSQL 【Seq2SQL,https://github.com/salesforce/WikiSQL
  10. 常识推理 Modified Winograd Schema Challenge, MWSC)

评测-GLUE

CoLA、 SST-2、 MRPC、 STS-B、 QQP、 MNLI-m、 QNLI、 RTE

评测-CLUE

  1. 中文任务基准评测CLUE

  2. AFQMC:蚂蚁语义相似度(Acc);

  3. TNEWS:文本分类(Acc);

  4. IFLYTEK:长文本分类(Acc);

  5. CMNLI: 自然语言推理中文版;

  6. COPA: 因果推断;

  7. WSC: Winograd模式挑战中文版;

  8. CSL: 中国科学文献数据集;

模型-BioBERT

https://github.com/dmis-lab/biobert

  1. NER
    命名实体识别
  2. RE
    关系抽取
  3. QA
    问答

模型-ERNIE

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

  1. 自然语言推断 XNLI
  2. 阅读理解 DuReader、CMRC2018、DRCD
  3. 命名实体识别 MSRA-NER(SIGHAN2006)
  4. 情感分析 ChnSentiCorp
  5. 问答任务 NLPCC2016-DBQA
  6. 语义相似度 LCQMC、BQ Corpus

模型-ALBERT

模型-TinyBERT

NLP的比赛和数据集的更多相关文章

  1. NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~

    ~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  2. 如何在nlp问题中定义自己的数据集

    我之前大致写了一篇在pytorch中如何自己定义数据集合,在这里如何自定义数据集 不过这个例子使用的是image,也就是图像.如果我们用到的是文本呢,处理的是NLP问题呢? 在解决这个问题的时候,我在 ...

  3. 自然语言处理(NLP)入门学习资源清单

    Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. ...

  4. 微软名人数据集 ms_celeb_1m 处理(MsCelebV1-Faces-Aligned.tsv)python脚本

    本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...

  5. 自然语言处理(NLP)

    苹果语音助手Siri的工作流程: 听 懂 思考 组织语言 回答 这其中每一步骤涉及的流程为: 语音识别 自然语言处理 - 语义分析 逻辑分析 - 结合业务场景与上下文 自然语言处理 - 分析结果生成自 ...

  6. 卷积神经网络(CNN)在句子建模上的应用

    之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献: Kim Y. Convolutional neural n ...

  7. 转:netflix推荐系统竞赛

    原文链接:Netflix recommendations: beyond the 5 stars (Part 1), (Part 2) 原文作者:Xavier Amatriain and Justin ...

  8. 基于hadoop的图书推荐

    根据在炼数成金上的学习,将部分代码总结一下在需要的时候可以多加温习.首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型:分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型:首先分 ...

  9. ms_celeb_1m数据提取(MsCelebV1-Faces-Aligned.tsv)python脚本

    本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...

随机推荐

  1. 七、linux基础-jdk1.8和weblogic12.2.1.3.0安装

    1.环境探查与准备 安装jdk和weblogic前需要对进行安装的linux系统硬件和软件环境进行探查确认,以确保支持对jdk1.8.0_144_1和weblogic12.2.1.3和的安装.webl ...

  2. 2017年陕西省网络空间安全技术大赛——一维码——Writeup

    <!doctype html> 2017年陕西省网络空间安全技术大赛——一维码——Writeup 先判断下载的文件flag.png确实是png格式的图片后(binwalk, file命令均 ...

  3. 理解Javascript的原型和原型链

    前言 本文2088字,阅读大约需要13分钟. 总括: 结合实例阐述了原型和原型链的概念并总结了几种创建对象的方法,扩展原型链的方法. 参考文章:The Secret Life of Objects,继 ...

  4. 算法进阶:0x01 位运算

    一.快速幂的模板代码 a^b%p: #include<iostream> using namespace std; int main() { int a,b,p; cin>>a ...

  5. STM32开发记录

    一.使用keil时经常遇到的问题 1.没有下载固件包 2.下载器没选择对 3.没安装下载器的驱动 二.关于数据手册和开发手册 1.如何下载这些手册 在官网下载,官网永远是一手资源 意法半导体官网:ww ...

  6. 安装nodejs时提示Leaving directory

    在按照标准的编译命令./configure =>make =>make install 在make的时候发生错误: ../deps/v8/src/base/platform/mutex.h ...

  7. C#加载XML方式

    //path:xml文件路径  SECSMessage:xml文件的根元素下的第一个子集元素 <SECSLibrary> <SECSMessage> <Descripti ...

  8. 剑指offer系列——62.二叉搜索树的第k个结点

    Q:给定一棵二叉搜索树,请找出其中的第k小的结点.例如, (5,3,7,2,4,6,8) 中,按结点数值大小顺序第三小结点的值为4. T: 中序遍历,递归: int count = 0; public ...

  9. AtCoDeer and Election Report

    问题 G: AtCoDeer and Election Report 时间限制: 1 Sec  内存限制: 128 MB[提交] [状态] 题目描述 AtCoDeer the deer is seei ...

  10. 计算机二级-C语言-程序设计题-190119记录-求出一个二维数组每一列的最小值。

    //编写一个函数:tt指向一个M行N列的二维数组,求出二维数组每列中最小的元素,并依次放入pp所指的一维数组中.二维数组中的数在主函数中赋予. //重难点:求出的是每一列的最小值,这里要注意,学会简化 ...