Distribution-is-all-you-need

概率统计到深度学习,四大技术路线图谱,都在这里!

https://github.com/graykode/distribution-is-all-you-need

自然语言处理路线图: 数学基础 -> 语言基础 -> 模型和算法

项目作者:Tae-Hwan Jung, Github:graykode,

2019-09-30 13:35, 选自Github

自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。

相比图像或语音,文本的变化更加复杂。

例如从预处理来看,NLP 就要求我们根据对数据的理解定制一种流程。

而且相比图像等更偏向感知的智能,自然语言包含更高一级的智能能力,

不论是承载思想、情感还是推理。

那么要怎样学习NLP自然语言处理,有什么比较好的路线吗?

通常而言,在数学和机器学习的基础上,

我们还需要了解自然语言的规则与现象,

这样才能进一步探讨该怎样处理自然语言。

本文介绍刚刚发布的一个开源项目,

韩国庆熙大学本科生 Tae-Hwan Jung 总结的一套 NLP 的技术路线图。

值得注意的是,Tae-Hwan Jung 此前已经开源了很多优秀的项目,

包括 4.3k+ star 量的 NLP 教程。

项目地址:https://github.com/graykode/nlp-roadmap

Tae-Hwan Jung 表示,本项目面向对 NLP 感兴趣的学生,

该路线图提供了学习 NLP 的思维导图及关键词信息,

它覆盖了从概率/统计到 SOTA NLP 模型的素材。



如上所示为 NLP 的技术基石,最基础的当然还是数学和算法方面的知识,此外语言学和机器学习知识也必不可少。再往上主要是文本挖掘与 NLP,在作者看来,前者更偏向于常规的算法与浅层机器学习模型,后者更偏向于深度学习模型。

四大技术线路图

如下从概率和统计到深度学习方法展示了四大技术路线图,它们从基石到高层展示了完整的知识领域。

概率与统计

机器学习

文本挖掘

自然语言处理

关键词之间的关系可能解释得比较模糊,因为是以语义思维导图的方式表示的。

读者们只需要看方框内的关键词就行,把它们当作必学部分;

一张图容纳如此多的关键词和知识点; 因此,请切记该路线图只是一种思路或者建议;

SciTech-Mathmatics-ProbabilitiesAndStatistics-Distribution-is-all-you-need: 概率统计到深度学习的更多相关文章

  1. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  2. Spark2.0机器学习系列之1: 聚类算法(LDA)

    在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:      (1)K-means      (2)Latent Dirichlet allocation (LDA)  ...

  3. 全网最详细的用pip安装****模块报错:Could not find a version that satisfies the requirement ****(from version:) No matching distribution found for ****的解决办法(图文详解)

    不多说,直接上干货! 问题详情 这个问题,很普遍.如我这里想实现,Windows下Anaconda2 / Anaconda3里正确下载安装用来向微信好友发送消息的itchat库. 见,我撰写的 全网最 ...

  4. Could not find a version that satisfies.... No matching distribution found for .....

    原文作者:aircraft 原文链接:https://www.cnblogs.com/DOMLX/p/10227403.html 今天在安装mysql-python的时候报了很多的错误,其中一条就是这 ...

  5. Uniform Distribution均匀分布

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...

  6. Gumbel distribution

    目录 概 主要内容 定义 Gumbel-Max trick Gumbel trick 用于归一化 代码 概 感觉这个分布的含义很有用啊, 能预测'最大', 也就是自然灾害, 太牛了. 主要内容 定义 ...

  7. 【Machine Learning】Python开发工具:Anaconda+Sublime

    Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...

  8. NLP点滴——文本相似度

    [TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

  9. 【热文】 为什么很多硅谷工程师偏爱 OS X,而不是 Linux 或 Windows?

    校对:伯乐在线 - 黄利民 链接: 1. Why do most of the developers in Silicon Valley prefer OS X over Linux or Windo ...

  10. NLP&数据挖掘基础知识

    Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Er ...

随机推荐

  1. [护网必备]2018年-2024年HVV 6000+个漏洞 POC 合集分享

    此份poc 集成了Zabbix.用友.通达.Wordpress.Thinkcmf.Weblogic.Tomcat等 下载链接: 链接: 6000+Poc下载

  2. WSL 安装配置 MySQL

    在 WSL 安装并配置 MySQL 与在 Ubuntu Server 安装配置 MySQL 一样的步骤.简要记录一下配置的过程. 安装 MySQL 参考微软官方文档[1]安装MySQL. sudo a ...

  3. Axure RP医疗在线挂号问诊原型图医院APP原形模板

    Axure RP医疗在线挂号问诊原型图医院APP原形模板 医疗在线挂号问诊Axure RP原型图医院APP原形模板,是一款原创的医疗类APP,设计尺寸采用iPhone13(375*812px),原型图 ...

  4. SQL 优化 - 多层嵌套逻辑先行

    近段时间就是忙得不亦乐乎, 一个人搞项目, 中途几经崩溃, 一个是业务方案有问题, 被带跑偏了整整一周, 最后尝试去挑战, 才重新回到正轨. 然后就是自己搞崩盘, sql 这块的处理, 嵌套写太深了, ...

  5. 进程间通信-POSIX 共享内存

    POSIX 共享内存 POSIX 共享内存是一种在 Linux 系统上使用的共享内存机制,它允许多个进程可以访问同一个内存区域,从而实现进程间的数据共享.共享内存是可用IPC机制中最快的,使用共享内存 ...

  6. flutter3-deepseek流式AI模板|Flutter3.27+Dio+DeepSeeek聊天ai助手

    基于Flutter3+DeepSeek-V3+Markdown跨平台流式ai打字输出问答助手. flutter3-deepseek-chat跨平台ai流式实例,基于Flutter3.27+Dart3+ ...

  7. 中国象棋小游戏(C版)

    中国象棋小游戏(C版) 说明: #include<graphics.h> 一个在 C/C++ 中用于图形编程的头文件,主要用于创建和操作图形界面.具有绘制图形.设置颜色.鼠标和键盘时间处理 ...

  8. AI对低代码技术的影响

    一.开发效率革命的"双引擎" 在过去的数十年里,软件工程领域正在经历一场由低代码平台和人工智能技术共同驱动的效率革命.这两股技术浪潮虽源于不同的技术路径,却共同指向同一个战略目标: ...

  9. [Java/模板渲染引擎/技术选型] 模板引擎-技术调研

    概述: 模板渲染引擎 := 模板引擎 为什么要使用[模板(渲染)引擎]?模板(渲染)引擎的作用? 模板引擎可以让(网站)程序实现界面与数据分离,业务代码与逻辑代码的分离,大大提升了开发效率,良好的设计 ...

  10. 50道常见Redis面试题,干货汇总

      哪些大厂在使用Redis?github.twitter.微博.Stack Overflow.百度.阿里巴巴.美团和搜狐等都在用,所以今天小编当作搬运工,为大家整理了一份Redis面试题,合计50个 ...