1.word2vec 耳熟能详的NLP向量化模型. Paper: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf Java: http://deeplearning4j.org/word2vec C++: https://github.com/jdeng/word2vec Python: https://radimre…
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) 文本分词 正向/逆向/双向最大匹配; 基于理解的句法和语义分析消歧: 基于统计的互信息/CRF方法: WordEmbedding + Bi-LSTM+CRF方法 去停用词:维护一个停用词表 (2)特征提取 特征选择的基本思路是根据某个评价指标独立的对原始特征项(词项)进行评分排序,从中选择得分最高的…
前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图谱: https://www.sogou.com/tupu/person.html?q=刘德华 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: https://jiuge.thunlp.cn/ 微软对联机器人: http://duilian.msra.cn/ NLP概述: 自然语言处理,是…
初识马尔可夫和马尔可夫链 作者:白宁超 2016年7月10日20:34:20 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下:第一篇对马…
马尔可夫模型与隐马尔可夫模型 作者:白宁超 2016年7月11日15:31:11 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下:第一篇…
向前算法解决隐马尔可夫模型似然度问题 作者:白宁超 2016年7月11日22:54:57 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下…
维特比算法解决隐马尔可夫模型解码问题(中文句法标注) 作者:白宁超 2016年7月12日14:08:28 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.…
向前向后算法解决隐马尔可夫模型机器学习问题 作者:白宁超 2016年7月12日14:28:10 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思…
翻车2次,试水2次,今天在B站终于成功直播了. 人气11万. 主要讲了语言模型.词向量的训练.ELMo模型(深度.双向的LSTM模型) 预训练与词向量 词向量的常见训练方法 深度学习与层次表示 LSTM, BI-LSTM模型回顾 基于BI-LSTM的ELMo算法 总结…
分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 文本向量化及词袋模型 - NLP学习(3-1) 在上一篇博文中,简单地阐述了如何将文本向量化及词袋模型的.文本向量化是为了将文本转换成机器学习算法可以直接处理的数字,直白点说就是这些转换后数字代表了文本的特征(此过程称之为特征提取或者特征编码),可以直接为机器学习模型所用.词袋模型(Bag-of-Words: BOW)则指的是统计单词在一个文本中出现的次数的…