深度学习,知识图谱,nlp学习经历                          
获取信息来源:英文paper研读,吴恩达公开课,Hiton公开课,北大nlp教材,英文最新学术论文,中科院院士技术博客,知识图谱专家课程
自学进修路线:基础理论---专业理论(公开课,讲义,教材,技术博客)---框架原理及使用:sparkMLlib,tensorflow---最新技术,专业理论提升(英文paper研读,算法改进)---NLP、LSTM(句子相似度,双向LSTM分词,语义分析理解,机器翻译)---聊天机器人技术研究
部分研究成果与原创技术博客,请登陆本人的技术博客:www.cnblogs.com/txq157(博客园)
生成式聊天机器人三种问题的解决方案:①上下文:Attention Model的引入②安全回答:更改损失函数为MMI③一致性问题(同义句敏感度问题):在Decoder阶段引入同义句
nlp研发经历
一、中文分词
实验背景:目前深度学习与nlp结合是大势所趋,在深度学习中占据统治地位的是BiLSTM和Attention Model在本人成功改造了IK中文分词,在模拟大容量文本分词时速度提升了30%(2016年初实现)的基础上,目前继续深入研究基于双向LSTM分词以及词性标注,全面取代CRF。
二、Kmeans聚类算法改进
实验背景:提取出文章的关键词,有很多方案。基于深度学习语义理解方向是目前热点,在使用w2v获取到词embedding后,进行词聚类,然后从每个簇中心中抽取出频率最高的词作为文章的关键词是比较不错的方案。基于"相同语境中出现的词语义相近"思想的w2v已经很成功,kmeans聚类算法由于损失函数的非凸性很容易陷入局部最优解,聚类中心的选取方式以及k值的最优解需要改进。
实验成果:经过本人长期不懈的努力,终于改进成功。改进后的效果:①能够使聚类中心的选取更加合理化,能够确定k值的隐式最优解,聚类结果准确率高且稳定②增加数据归一化处理③增加了聚类结果连续存储的归类算法。链接地址:http://www.cnblogs.com/txq157/p/6067098.html
三、文章摘要改进计划:siamese lstm 解决句子相似度                   
实验背景:文章摘要技术用在搜索领域,可以改进搜索性能,节约用户的搜索时间。运用传统的依赖于知识库方法摘取出文章的关键词效果不佳。文章摘要技术,不管采用何种手段,离不开三个核心问题:①计算句子相似度②文摘句抽取③文摘句排序。文章摘要比较理想的效果是抽取出文章中的中心句,而不是特征词的拼凑。因此从语义理解的角度出发,第一种方案,依赖于w2v获取到词embedding,然后累加embedding组成句子,继续累加组成文章语义表示,从中找出与文章语义最接近的句子语义表示。这个方案与传统的统计建模相比,效果显然好很多,但不是最佳方案。把CNN引入到nlp中也是一种方案,但不是最佳方案。语义理解的核心是以句子或者文章为单位进行高阶特征抽取。在垂直搜索领域,lucene底层的文档排重SimHash已经很成功,前提也是抽取文档的特征语句。现在提出一个更接近于理想效果的方案:运用siamese lstm获取到句子的向量(与标准的lstm比较,这些句子的向量具有语义关联),然后累加成文章的语义表示,从中找出与文章语义最相近的句子作为中心句。因此核心问题是siamese lstm解决句子相似度。
深度学习nlp实验
在nlp业内,语义理解和分析一直是难点,之前基于word2vector按照词向量选择每个词的候选词然后组合成语句的方案,时间复杂度高且准确度不够。此次实验目的是探索基于2015年国外最新的研究成果 siamese lstm(区别于标准的lstm),以句子对儿或者文档对儿为输入对象,以句子对儿的exp(-||h1-h2||)为输出,MSE构建loss function,基于ma结构,实验准确度提升到90%以上,如果样本足够科学,人工打分足够精准,准确度还会更高。
搭建tensorflow分布式环境,siamese lstm学术论文的转化,主要是tensorflow 代码实施,模型训练
基于句子对儿的siamese lstm的相似度解决方案的一次成功探索。

关于nlp的一些探索的更多相关文章

  1. NLP点滴——文本相似度

    [TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

  2. NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)

    摘录自:CIPS2016 中文信息处理报告<第二章 语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...

  3. NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

    R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...

  4. 请收好这份NLP热门词汇解读

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 微软研究院AI头条 编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Tran ...

  5. NLP&深度学习:近期趋势概述

    NLP&深度学习:近期趋势概述 摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新 ...

  6. 图解BERT(NLP中的迁移学习)

    目录 一.例子:句子分类 二.模型架构 模型的输入 模型的输出 三.与卷积网络并行 四.嵌入表示的新时代 回顾一下词嵌入 ELMo: 语境的重要性 五.ULM-FiT:搞懂NLP中的迁移学习 六.Tr ...

  7. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  8. NLP是什么

    NLP是什么 而在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言. 这包括,既要能让计算机理解自然语 ...

  9. 聊天机器人(chatbot)终极指南:自然语言处理(NLP)和深度机器学习(Deep Machine Learning)

    在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料. 时不时地我会发现一个出色的资源,因此 ...

随机推荐

  1. 彩虹表(rainbow table)

    前记 MD5的全称是Message-Digest Algorithm 5(信息-摘要算法): 特点是不可逆的,一般解密不了:那有没有想过,为什么各种工具网站都可以进行MD5解密呢?https://ww ...

  2. 『Norma 分治』

    Norma Description Input Format 第1行,一个整数N: 第2~n+1行,每行一个整数表示序列a. Output Format 输出答案对10^9取模后的结果. Sample ...

  3. 我是如何一步步编码完成万仓网ERP系统的(三)登录

    https://www.cnblogs.com/smh188/p/11533668.html(我是如何一步步编码完成万仓网ERP系统的(一)系统架构) https://www.cnblogs.com/ ...

  4. 修改Nginx配置参数解决http状态码:413上传文件大小限制问题

    修改Nginx上传文件大小限制 我们使用ngnix做web server的时候,nginx对上传文件的大小有限制,默认是1M. 当超过大小的时候会报413(too large)错误.这个时候我们要修改 ...

  5. 如何开发出成功的iOS应用(流程图)

    转自:http://mobile.51cto.com/hot-307342.htm 近来,肥沃的应用开发土壤不断孕育出一个个振奋人心的故事,成千上万的人都觊觎从这个机遇无限的领域中分一杯羹.虽然现在的 ...

  6. vue-router 在新窗口打开页面的功能

    项目中,需要点击链接后再新窗口打开页面,大家知道vue是单页面应用开发框架,那么也不是不可以实现这个功能 很简单,详情看下面 1.<router-link>标签实现新窗口打开 <ro ...

  7. 浓缩版java8新特性

    目录 一.Lambda 1.定义/设计原因 2.结构 3.规则 4.使用 二.函数式接口 1.定义 2.设计原因 3.使用 三.方法引用 1.定义/设计原因 2.使用 四.接口的默认方法 1.定义 2 ...

  8. c#执行sql超时

    超时分为多种,SqlConnection有超时选项, SqlDataAdapter也有超时选项设置如下: SqlConnection:就用链接字符串给予的Timeout设置就行单位秒: SqlData ...

  9. 关于Jackson中JsonNode的取值asText()和textValue()区别

    在 比较高版本的Jackson 中, 包名为 com.fasterxml.jackson String jsonText="{\"name\":\"张三\&qu ...

  10. 洛谷P2463 [SDOI2008]Sandy的卡片(后缀数组SA + 差分 + 二分答案)

    题目链接:https://www.luogu.org/problem/P2463 [题意] 求出N个串中都出现的相同子串的最长长度,相同子串的定义如题:所有元素加上一个数变成另一个,则这两个串相同,可 ...