[转]NLP数据集

【[转]NLP数据集】的更多相关文章

干货 | 100+个NLP数据集大放送，再不愁数据！

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案.(200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/ 博主原创语料库:包含2004年8月从blogger.com网站收集的19,32…

NLP数据集大放送，再也不愁数据了！【上百个哦】

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案.(200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/ 博主原创语料库:包含2004年8月从blogger.com网站收集的19,32…

原文链接 nlp-datasets Alphabetical list of free/public domain datasets with text data for use in Natural Language Processing (NLP). Most stuff here is just raw unstructured text data, if you are looking for annotated corpora or Treebanks refer to the sou…

史上最详尽的NLP预处理模型汇总

文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 磐创AI(公众号ID:xunixs) 作者 | AI小昕编者按:近年来,自然语言处理(NLP)的应用程序已经无处不在.NLP使用率的快速增长主要归功于通过预训练模型实现的迁移学习概念,迁移学习本质上是在一个数据集上训练模型,然后使该模型能够适应在不同的数据集上执行不同的NLP操作.这一突破使得每个人都能轻松地开启NLP任务,尤其是那些没有时间和资源从头开始构建NLP模型的人.所以,使用预…

自然语言处理(NLP)入门学习资源清单

Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. displaCy网站上的可视化依赖解析树 https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!&model=en&cpu=1&cph=0 记得我曾经读到过这样…

NLP论文解读：无需模板且高效的语言微调模型（下）

原创作者 | 苏菲论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论文地址: https://openreview.net/pdf?id=6o5ZEtqP2g 02 PERFECT:无需Patterns和Verbalizer的微调模型这个模型主要包含三个部分: 1)无需pattern的任务描述,使用了一个任务相关的适配器来有效告知模型相关的任务,取代了手工制作的pa…

使用Huggingface在矩池云快速加载预训练模型和数据集

作为NLP领域的著名框架,Huggingface(HF)为社区提供了众多好用的预训练模型和数据集.本文介绍了如何在矩池云使用Huggingface快速加载预训练模型和数据集. 1.环境 HF支持Pytorch,TensorFlow和Flax.您可以根据HF官方文档安装对应版本,也可以使用矩池云HuggingFace镜像(基于Pytorch),快速启动. 矩池云租用机器入门手册如果使用其他镜像,你需要手动安装 transformers 和 datasets 两个包: pip install tr…

新手如何入门pytorch？

我最近的文章中,专门为想学Pytorch的新手推荐了一些学习资源,包括教程.视频.项目.论文和书籍.希望能对你有帮助:一.PyTorch学习教程.手册 (1)PyTorch英文版官方手册:https://pytorch.org/tutorials/.对于英文比较好的同学,非常推荐该PyTorch官方文档,一步步带你从入门到精通.该文档详细的介绍了从基础知识到如何使用PyTorch构建深层神经网络,以及PyTorch语法和一些高质量的案例. (2)PyTorch中文官方文档:https://pyt…

论文阅读 | ERNIE: Enhanced Representation through Knowledge Integration

摘要知识加强的语义表示模型. knowledge masking strategies : entity-level masking / phrase-level masking 实体级别和短语级别 SOTA:5个中文NLP任务 NLI 语义相似性命名实体识别情感分析 QA 知识推理能力! 预训练模型: Cove Elmo GPT BERT XLNet 模型未考虑句子之前的知识. ERNIE 在训练过程中学习实体和短语的先验知识. ERNIE隐式…

ERNIE：知识图谱结合BERT才是「有文化」的语言模型

自然语言表征模型最近受到非常多的关注,很多研究者将其视为 NLP 最重要的研究方向之一.例如在大规模语料库上预训练的 BERT,它可以从纯文本中很好地捕捉丰富的语义模式,经过微调后可以持续改善不同 NLP 任务的性能.因此,我们获取 BERT 隐藏层表征后,可用于提升自己任务的性能. 但是,已有的预训练语言模型很少考虑知识信息,具体而言即知识图谱(knowledge graphs,KG),知识图谱能够提供丰富的结构化知识事实,以便进行更好的知识理解.简而言之,预训练语言模型只知道语言相关的「合理…