整理了NLP领域的比赛、数据集、模型

比赛 网站 主办方(作者)
decaNLP http://decanlp.com/ Salesforce
CLUE https://github.com/CLUEbenchmark/CLUE 中文任务基准
GLUE https://gluebenchmark.com/tasks
BioBERT https://github.com/dmis-lab/biobert 生物医学领域的NLP任务
ERNIE https://github.com/PaddlePaddle/ERNIE 百度飞桨
ALBERT

decaNLP

自然语言十项全能多任务挑战

Natural Language Decathlon (decaNLP) 是一个新的基准,要求单独的系统能够完成10项独立的自然语言任务。

  1. 问答 Stanford Question Answering Dataset (SQuAD 1.1)
  2. 机器翻译 International Workshop on Spoken Language Translation (IWSLT),
  3. 自动摘要 CNN/DailyMail (CNN/DM) corpus.
  4. 自然语言推理 Multi-Genre Natural Language Inference Corpus (MNLI).
  5. 情感分析 Stanford Sentiment Treebank (SST),
  6. 语义标签标注 QA-SRL 1.0.
  7. 关系抽取 QA-ZRE,
  8. 面向全域的对话 Wizard of Oz (WOZ)
  9. 语义解析 WikiSQL 【Seq2SQL,https://github.com/salesforce/WikiSQL
  10. 常识推理 Modified Winograd Schema Challenge, MWSC)

评测-GLUE

CoLA、 SST-2、 MRPC、 STS-B、 QQP、 MNLI-m、 QNLI、 RTE

评测-CLUE

  1. 中文任务基准评测CLUE

  2. AFQMC:蚂蚁语义相似度(Acc);

  3. TNEWS:文本分类(Acc);

  4. IFLYTEK:长文本分类(Acc);

  5. CMNLI: 自然语言推理中文版;

  6. COPA: 因果推断;

  7. WSC: Winograd模式挑战中文版;

  8. CSL: 中国科学文献数据集;

模型-BioBERT

https://github.com/dmis-lab/biobert

  1. NER
    命名实体识别
  2. RE
    关系抽取
  3. QA
    问答

模型-ERNIE

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

  1. 自然语言推断 XNLI
  2. 阅读理解 DuReader、CMRC2018、DRCD
  3. 命名实体识别 MSRA-NER(SIGHAN2006)
  4. 情感分析 ChnSentiCorp
  5. 问答任务 NLPCC2016-DBQA
  6. 语义相似度 LCQMC、BQ Corpus

模型-ALBERT

模型-TinyBERT

NLP的比赛和数据集的更多相关文章

  1. NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~

    ~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  2. 如何在nlp问题中定义自己的数据集

    我之前大致写了一篇在pytorch中如何自己定义数据集合,在这里如何自定义数据集 不过这个例子使用的是image,也就是图像.如果我们用到的是文本呢,处理的是NLP问题呢? 在解决这个问题的时候,我在 ...

  3. 自然语言处理(NLP)入门学习资源清单

    Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. ...

  4. 微软名人数据集 ms_celeb_1m 处理(MsCelebV1-Faces-Aligned.tsv)python脚本

    本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...

  5. 自然语言处理(NLP)

    苹果语音助手Siri的工作流程: 听 懂 思考 组织语言 回答 这其中每一步骤涉及的流程为: 语音识别 自然语言处理 - 语义分析 逻辑分析 - 结合业务场景与上下文 自然语言处理 - 分析结果生成自 ...

  6. 卷积神经网络(CNN)在句子建模上的应用

    之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献: Kim Y. Convolutional neural n ...

  7. 转:netflix推荐系统竞赛

    原文链接:Netflix recommendations: beyond the 5 stars (Part 1), (Part 2) 原文作者:Xavier Amatriain and Justin ...

  8. 基于hadoop的图书推荐

    根据在炼数成金上的学习,将部分代码总结一下在需要的时候可以多加温习.首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型:分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型:首先分 ...

  9. ms_celeb_1m数据提取(MsCelebV1-Faces-Aligned.tsv)python脚本

    本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...

随机推荐

  1. datatable自动增加序号

    { "targets": [0], "visible": true, "render": function (data, type, ful ...

  2. Dataguard单机—>单机

    本演示案例所用环境: primary Standby OS Hostname CHINA-DB1 CHINA-DB2 OS Version SUSE Linux Enterprise Server 1 ...

  3. WLC license管理

    关于控制器的license,可以参考对应平台的Datasheet: Cisco 2504 WLC Cisco 3504 WLC Cisco 5508 WLC Cisco 5520 WLC Cisco ...

  4. PS绘制Logo

    1. 2. 3. 4. 5. 6. 第2步点击“圆1”应点击图层左边的缩览图才能获取选区 7. 8. 9. 10. 11. 12.

  5. Java面向对象编程 -6.2

    数组的引用传递 通过数组的基本定义可以发现,在数组使用的过程中依然需要使用new进行内存空间的开辟,同理,那么也一定存在有内存的关系匹配问题. 但是数组本身毕竟属于引用数据类型,那么既然是引用数据类型 ...

  6. springboot笔记-1.自动化配置的关键

    最近发现看过的东西容易忘,但是写一遍之后印象倒是会深刻的多. 总所周知springboot极大的简化了java开发繁琐性,而其最大的优势应该就是自动化配置了.比如要使用redis,我们直接引入相关的包 ...

  7. 动态规划: 最大m子段和问题的详细解题思路(JAVA实现)

    这道最大m子段问题我是在课本<计算机算法分析与设计>上看到,课本也给出了相应的算法,也有解这题的算法的逻辑.但是,看完之后,我知道这样做可以解出正确答案,但是我如何能想到要这样做呢? 课本 ...

  8. centos 时区的更改 UTC TO CST

    在CentOS Linux中终端命令中执行以下命令: 1).vi /etc/sysconfig/clock   #编辑时间配置文件 ZONE="Asia/Shanghai" UTC ...

  9. 利用 systemd 实现 Clash 开机自启

    利用 systemd 实现 Clash 开机自启 首先准备 Clash 的服务脚本,并保存为/etc/systemd/system/clash.service.内容如下: [Unit] Descrip ...

  10. Spring Boot Mybatis 使用教程

    Mybatis 在当下互联网开发环境,十分重要.本章主要讲述 Mybatis 如何使用. 从本系列开始,都需要用到 mysql 数据库 和其他一些参考的数据库.请准备相关环节.本章需要以下环境支撑: ...