自然语言处理(NLP)相关学习资料/资源

1. 书籍推荐

自然语言处理

统计自然语言处理(第2版)

作者:宗成庆

出版社:清华大学出版社;出版年:2013;页数:570

内容简介:系统地描述了神经网络之前的基于统计的NLP方法,能够对NLP各项任务以及经典的算法学习了解。

数学之美(第2版)

作者:吴军

出版社:人民邮电出版社;出版年:2014;页数:312

内容简介:讲解了NLP里常用的数学模型,并把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。

Speech and Language Processing (3rd)

作者:Dan Jurafsky and James H. Martin

Draft chapters in progress

在线网址:https://web.stanford.edu/~jurafsky/slp3/

内容简介:由NLP领域极具影响力的学者编写,从第一版开始就很全面系统地描述了NLP领域的各个任务以及常用模型,目前最新第三版还未正式出版,该版本加入了近几年神经网络方法,是一本极全面的NLP书籍。

Neural Network Methods for Natural Language Processing

作者:Yoav Goldberg

出版社:Morgan & Claypool Publishers;出版年:2017;页数:310

内容简介:专注神经网络在NLP上的应用,适合初学者入门,主要包括常用的前馈神经网络、卷积神经网络和循环神经网络在NLP上的应用。

机器学习

统计学习方法(第2版)

作者:李航

出版社:清华大学出版社;出版年:2019;页数:464

内容简介:全面系统地介绍了统计学习的主要方法,包括SVM、最大熵、随机条件场等主流模型。注重模型的原理和公式推导,并有例子,适合对机器学习方法理论的推导学习。第2版新增了无监督学习的相关内容。

机器学习

作者:周志华

出版社:清华大学出版社;出版年:2016;页数:425

内容简介:西瓜书以生动形象的例子和图解来介绍机器学习的主要方法,更适合初学者阅读。

Deep Learning

作者:Ian Goodfellow, Yashua Bengio, and Aaron Courville

出版社:The MIT Press;出版年:2016;页数:800

内容简介:深度学习权威书籍,系统全面介绍了各种神经网络方法包括其发展历史,更推荐阅读英文原版。

人工智能

人工智能:一种现代的方法(第3版)

Artificial Intelligence:A Modern Approach (3rd Edition)

作者:Stuart J.Russell,Peter Norvig

出版社:清华大学出版社;出版年:2013;页数:918

内容简介:被广泛使用的经典人工智能教材,内容很丰富,包括了人工智能经典算法,讲解清晰。

2. 网络课程推荐

UFLDL Tutorial

网址:http://ufldl.stanford.edu/tutorial/

主讲人:Andrew Ng等人

内容简介:这是stanford一个比较早期的DL(DeepLearning)教程,例如如何使用栈式自编码器构建深度前馈神经网络。内容精短,易于早期入门,快速上手。其实目前无论各种高级的神经网络都离不开最基本的BP(前向后向传播)算法。

deeplearning.ai

网址:https://www.deeplearning.ai/deep-learning-specialization/

主讲人:Andrew Ng等人

内容简介:近期开设的DL公开课,通俗易懂,适合入门。

csc321 Neural Networks for Machine Learning

网址:http://www.cs.toronto.edu/~hinton/coursera_lectures.html

主讲人:Hinton等人

内容简介:多伦多大学的神经网络机器学习课程,早期是由Hinton本人上课,需要有一定的基础。

CS224n: Natural Language Processing with Deep Learning

网址:http://cs224d.stanford.edu/

主讲人:Chris Manning等人

内容简介:斯坦福大学的基于深度学习的自然语言处理课程,已经更新到2019年的最新课程,内容包括了最新的一些基于深度学习的NLP进展。

3. 学术博客推荐

Google AI Blog

网址:https://ai.googleblog.com/

内容简介:谷歌AI官网博客,很多他们自己的工作也都会在blog上进行介绍。

我爱自然语言处理(52nlp)

网址:http://www.52nlp.cn/

内容简介:国内博客,有很丰富的NLP相关资源

Sebastian Ruder

网址:https://ruder.io/#open

内容简介:NLP学者Sebastian Ruder的个人博客,经常会撰写一些技术博客和参加顶会的感想总结,十分值得学习。包括他整理的NLP-progress项目,可以了解NLP各个任务的SOTA。

colah‘s blog

网址:https://colah.github.io/

内容简介:虽然现在不怎么更新了,但是之前的一些blog很经典,适合初学者对神经网络的学习理解,当时火热的“Understanding LSTM Networks”就是出自于此。

4. 文献管理工具推荐

Mendeley

网址:https://www.mendeley.com/

内容简介:免费强大的文献管理工具,具有自动识别文章基本信息、检索、标记、邮件推送等功能。界面简洁、良好,推荐阅读管理文献使用。

Endnote

网址:https://endnote.com/

内容简介:个人认为在阅读文献时没有Mendeley方便,但是在word插入参考文件功能上比Mendeley流畅一些,看个人喜好。

5. 学术论文检索网站推荐

Google Scholar

网址:https://scholar.google.com/

内容简介:全球使用广泛的论文检索网站,每篇论文可以看到被引情况,可以通过设置直接导入Endnote。你还可以建立自己的Google Scholar主页,会根据你的研究进行推荐。

dblp

网址:https://dblp.uni-trier.de/

内容简介:一个计算机学科的文献集成数据库系统,可以根据作者、会议、期刊等分类来找到相关文献,适合需要调研某个特定期刊、会议、作者时使用。

arXiv

网址:https://arxiv.org/

内容简介:一个收录科学文献预印本的在线数据库,科研工作者可以发布未正式出版物的论文,用于同行交流。能够了解研究领域的最新进展。

ACL Anthology

网址:https://aclweb.org/anthology/

内容简介:一个收录计算语言学研究论文的数字档案,对所有人免费开放。它包括NLP领域杂志(Computational Linguistics journal),以及许多相关顶会的文献,例如ACL, EMNLP, NAACL,  COLING等。

中国知网

网址:https://www.cnki.net/

内容简介:国内中文论文检索库,NLP可以重点关注《计算机学报》、《软件学报》、《计算机研究与发展》、《中文信息学报》等期刊,以及一些优秀博士论文。

6. NLP工具推荐

英文

Stanford CoreNLP

网址:https://stanfordnlp.github.io/CoreNLP/

主要支持语言:Arabic, Chinese, English, French, German, Spanish

计算机语言:Java, Python

功能:

Ÿ   Part-of-speech (POS) tagger

Ÿ   Named entity recognizer (NER)

Ÿ   Parser

Ÿ   Coreference resolution system

Ÿ   Sentiment analysis

Ÿ   Bootstrapped pattern learning

Ÿ   Open information extraction

内容简介:CoreNLP是斯坦福NLP组集合了他们在NLP上的研究所开发,在各项任务上都有不错的表现,被广泛使用。虽然支持中文,但是中文效果不是很理想

NLTK

网址:http://www.nltk.org/

主要支持语言:English

计算机语言:Python

功能:

Ÿ   WordNet

Ÿ   Classification

Ÿ   Tokenization

Ÿ   Stemming

Ÿ   Tagging

Ÿ   Parsing

Ÿ   Semantic reasoning

内容简介:NLTK由宾夕法尼亚大学计算机和信息科学系开发的一个Python开源项目。提供NLP各种任务功能以及一些文本预处理、特征生成等相关函数。

Gensim

网址:https://radimrehurek.com/gensim/index.html

支持语言:根据语料语言而定

计算机语言:Python

主要功能:计算文本之间相似度

内容简介:Gensim是一款开源的第三方Python工具包,主要用于从原始的非结构化的文本中,得到文本的向量表达。它支持包括TF-IDF、LSA、LDA、word2vec等在内的多种算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

AllenNLP

网址:https://allennlp.org/

主要支持语言:English

计算机语言:Python, 需要PyTorch框架

主要功能:实现了大量先进的基于深度学习的NLP模型

内容简介:AllenNLP是Allen AI实验室的作品,基于PyTorch开发,实现了大量基于深度学习的先进模型。例如Transformer、BERT、ELMo、BiLSTM-CRF等模型。

中文

LTP

网址:http://ltp.ai/index.html

主要支持语言:Chinese

计算机语言:C++, Java, Python

主要功能:

Ÿ   分词

Ÿ   词性标注

Ÿ   命名实体识别

Ÿ   依存句法分析

Ÿ   语义角色标注

内容简介:语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。

HanLP

网址:http://hanlp.com/

主要支持语言:Chinese

计算机语言:Java,有Python接口

主要功能:

Ÿ   分词

Ÿ   词性标注

Ÿ   命名实体识别

Ÿ   关键词提取

Ÿ   自动摘要

Ÿ   短语提取

Ÿ   文本推荐

Ÿ   依存句法分析

Ÿ   文本分类

Ÿ   文本聚类

内容简介:HanLP是一系列模型与算法组成的NLP工具包,主要由何晗开发,HanLP从v1.3版本起至v1.6正式由大快搜索主导开发,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。

PaddleNLP

网址:https://github.com/paddlepaddle/models#PaddleNLP

主要支持语言:Chinese

计算机语言:Python接口

主要功能:

Ÿ   词法分析

Ÿ   语言模型

Ÿ   语义表示

Ÿ   文本生成

Ÿ   情感分析

Ÿ   机器翻译

Ÿ   对话系统

内容简介:PaddleNLP是基于百度PaddlePaddle深度学习框架开发的自然语言处理工具、算法、模型和数据的开源项目。

NLPIR-ICTCLAS

网址:http://ictclas.nlpir.org/

主要支持语言:Chinese

计算机语言:C#, C++, Java

主要功能:

Ÿ   中文分词

Ÿ   词性标注

Ÿ   命名实体识别

Ÿ   新词识别

Ÿ   关键词提取

内容简介:前身是中科院分词系统ICTCLAS,由张华平博士主导开发。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

THULAC

网址:https://github.com/thunlp/THULAC

主要支持语言:Chinese

计算机语言:C++, Java, Python

主要功能:

Ÿ   中文分词

Ÿ   词性标注

内容简介:THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

pkuseg

网址:https://github.com/lancopku/pkuseg-python

主要支持语言:Chinese

计算机语言:Python3

主要功能:

Ÿ   中文分词

Ÿ   词性标注

内容简介:由北京大学语言计算与机器学习研究组开发的一个多领域中文分词工具包,具有多领域分词的特点。目前支持了新闻领域、网络领域、医药领域、旅游领域以及混合领域的分词预训练模型。

jieba

网址:https://github.com/fxsjy/jieba

主要支持语言:Chinese

计算机语言:Python, Java, C++等

主要功能:

Ÿ   中文分词

Ÿ   词性标注

Ÿ   关键词收取

内容简介:支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词。 支持自定义词典。可以并行分词,速度快。

自然语言处理(NLP)相关学习资料/资源的更多相关文章

  1. 自然语言处理(NLP)入门学习资源清单

    Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. ...

  2. springCloud相关学习资料

    SpringCloud相关学习资料 SpringCloud资料参考: 1. 史上最简单的 SpringCloud 教程 | 终章 2. Spring Cloud基础教程 SpringCloud相关: ...

  3. 从技术小白到收获BAT研发offer,分享我的学习经验和感悟(赠送相关学习资料)

    去年秋季参加了校园招聘,有幸拿到了BAT.头条.网易.滴滴.亚马逊.华为等offer,经过研究生两年的学习积累,终于达成了自己的目标,期间也经历了很多,谨以此文,聊表感叹,也会分享很多我的Java学习 ...

  4. NLP | 算法 学习资料整理

    UPDATE TIME: 2019-12-12 17:06:32 NLP: 对话系统: [ ] https://www.cnblogs.com/jiangxinyang/p/10789512.html ...

  5. spring HttpInvoker相关学习资料

    官方文档 spring支持的几种RPC 用Http Invoker实现RCP客户端与后台的交互 Java HttpInvoker小试 Spring注解发布RMI/HTTPInvoker/Hessian ...

  6. protobuf学习(2)-相关学习资料

    protobuf官方git地址 protobuf官方英文文档   (你懂的需要FQ) protobuf中文翻译文档 protobuf概述          (官方翻译 推荐阅读) protobuf入门 ...

  7. Android相关学习资料整理

    小项目 2015-1-17 记事本 记事本 学习笔记: 结构清晰,简单易懂 2015-1-24 蘑菇街 仿蘑菇街 学习笔记:写博客的一种态度,讲解,配图,代码都很完善,值得学习 相机开发 学习笔记:思 ...

  8. zookeeper 相关学习资料

    zookeeper的配置:http://www.cnblogs.com/yuyijq/p/3438829.html zookeeper运维:http://blog.csdn.net/hengyunab ...

  9. GUI相关学习资料

    分类 1,基于OS,包括windows,linux,android,ios 2,基于语言,包括c++,java,c#,javacript 3,按照技术分类,这个其实和os,编程语言分不开,大概可以分为 ...

随机推荐

  1. csp-s m 80 题解

    写在前面:(扯淡话) 这次考试是AB组分开考,但是觉得题目并不是很水,所以就来写一下题解,其实这次由于翘掉了午休,所以考试的前半部分还是比较困的(越做越清醒!)今天调完还是很有感触的! 正文: T1 ...

  2. hashMapp

    原文链接:https://www.iteye.com/topic/539465 Hashmap是一种非常常用的.应用广泛的数据类型,最近研究到相关的内容,就正好复习一下.网上关于hashmap的文章很 ...

  3. docker——harbor

    为什么要用harbor? 在实际生产运维中,往往需要把镜像发布到几十.上百台或更多的节点上.这时单台Docker主机上镜像已无法满足,项目越来越多,镜像就越来越多,都放到一台Docker主机上是不行的 ...

  4. C语言I博客作业08

    这个作业属于那个课程 C语言程序设计II 这个作业要求在哪里 作业 我在这个课程的目标是 熟悉使用while和do-while结构解决问题 这个作业在那个具体方面帮助我实现目标 pta题目及查找的资料 ...

  5. Uber Go 语言编码规范

    Uber Go 语言编码规范 Uber 是一家美国硅谷的科技公司,也是 Go 语言的早期 adopter.其开源了很多 golang 项目,诸如被 Gopher 圈熟知的 zap.jaeger 等.2 ...

  6. CentOS7 编码编译安装或卸载http2.4.25 一键脚本

    待完善 CentOS 7测试 哈哈 #!/bin/bash #************************************************************** #Autho ...

  7. 《计算机网络 自顶向下方法》 第6章 链路层和局域网 Part2

    待补充完善 Web 页面的请求历程 应用层     报文.主机 运输层     报文段. 网络层     数据报.路由器.IP 地址 链路层     以太网帧.交换机.MAC 地址 步骤 1)到 4) ...

  8. 学习Java第一步:安装Intellij IDEA和JDK

    注:其实真正学习一门新语言的第一步并不是安装开发工具,我是C#转JAVA,有一点编程经验了,所以可以直接跳过前面几步,直接上IDE. 1.下载IntelliJ IDEA [官网] http://www ...

  9. IBM-X3850-4U诊断面板信息

    IBM X3850 4U 指示灯 描述 OVERSPEC 没有足够的电量为系统供电.NONRED和LOG指示灯可能也点亮 PS 一个电源故障或者被电源未插 LINK 保留 CPU CPU出现故障.丢失 ...

  10. 扛把子组作业要求 20191024-3 互评Alpha阶段作品

    此作业的要求参见[https://edu.cnblogs.com/campus/nenu/2019fall/homework/9860] 组名:扛把子 组长:迟俊文 组员:宋晓丽 梁梦瑶 韩昊 刘信鹏 ...