深度学习,知识图谱,nlp学习经历                          
获取信息来源:英文paper研读,吴恩达公开课,Hiton公开课,北大nlp教材,英文最新学术论文,中科院院士技术博客,知识图谱专家课程
自学进修路线:基础理论---专业理论(公开课,讲义,教材,技术博客)---框架原理及使用:sparkMLlib,tensorflow---最新技术,专业理论提升(英文paper研读,算法改进)---NLP、LSTM(句子相似度,双向LSTM分词,语义分析理解,机器翻译)---聊天机器人技术研究
部分研究成果与原创技术博客,请登陆本人的技术博客:www.cnblogs.com/txq157(博客园)
生成式聊天机器人三种问题的解决方案:①上下文:Attention Model的引入②安全回答:更改损失函数为MMI③一致性问题(同义句敏感度问题):在Decoder阶段引入同义句
nlp研发经历
一、中文分词
实验背景:目前深度学习与nlp结合是大势所趋,在深度学习中占据统治地位的是BiLSTM和Attention Model在本人成功改造了IK中文分词,在模拟大容量文本分词时速度提升了30%(2016年初实现)的基础上,目前继续深入研究基于双向LSTM分词以及词性标注,全面取代CRF。
二、Kmeans聚类算法改进
实验背景:提取出文章的关键词,有很多方案。基于深度学习语义理解方向是目前热点,在使用w2v获取到词embedding后,进行词聚类,然后从每个簇中心中抽取出频率最高的词作为文章的关键词是比较不错的方案。基于"相同语境中出现的词语义相近"思想的w2v已经很成功,kmeans聚类算法由于损失函数的非凸性很容易陷入局部最优解,聚类中心的选取方式以及k值的最优解需要改进。
实验成果:经过本人长期不懈的努力,终于改进成功。改进后的效果:①能够使聚类中心的选取更加合理化,能够确定k值的隐式最优解,聚类结果准确率高且稳定②增加数据归一化处理③增加了聚类结果连续存储的归类算法。链接地址:http://www.cnblogs.com/txq157/p/6067098.html
三、文章摘要改进计划:siamese lstm 解决句子相似度                   
实验背景:文章摘要技术用在搜索领域,可以改进搜索性能,节约用户的搜索时间。运用传统的依赖于知识库方法摘取出文章的关键词效果不佳。文章摘要技术,不管采用何种手段,离不开三个核心问题:①计算句子相似度②文摘句抽取③文摘句排序。文章摘要比较理想的效果是抽取出文章中的中心句,而不是特征词的拼凑。因此从语义理解的角度出发,第一种方案,依赖于w2v获取到词embedding,然后累加embedding组成句子,继续累加组成文章语义表示,从中找出与文章语义最接近的句子语义表示。这个方案与传统的统计建模相比,效果显然好很多,但不是最佳方案。把CNN引入到nlp中也是一种方案,但不是最佳方案。语义理解的核心是以句子或者文章为单位进行高阶特征抽取。在垂直搜索领域,lucene底层的文档排重SimHash已经很成功,前提也是抽取文档的特征语句。现在提出一个更接近于理想效果的方案:运用siamese lstm获取到句子的向量(与标准的lstm比较,这些句子的向量具有语义关联),然后累加成文章的语义表示,从中找出与文章语义最相近的句子作为中心句。因此核心问题是siamese lstm解决句子相似度。
深度学习nlp实验
在nlp业内,语义理解和分析一直是难点,之前基于word2vector按照词向量选择每个词的候选词然后组合成语句的方案,时间复杂度高且准确度不够。此次实验目的是探索基于2015年国外最新的研究成果 siamese lstm(区别于标准的lstm),以句子对儿或者文档对儿为输入对象,以句子对儿的exp(-||h1-h2||)为输出,MSE构建loss function,基于ma结构,实验准确度提升到90%以上,如果样本足够科学,人工打分足够精准,准确度还会更高。
搭建tensorflow分布式环境,siamese lstm学术论文的转化,主要是tensorflow 代码实施,模型训练
基于句子对儿的siamese lstm的相似度解决方案的一次成功探索。

关于nlp的一些探索的更多相关文章

  1. NLP点滴——文本相似度

    [TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

  2. NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)

    摘录自:CIPS2016 中文信息处理报告<第二章 语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...

  3. NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

    R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...

  4. 请收好这份NLP热门词汇解读

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 微软研究院AI头条 编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Tran ...

  5. NLP&深度学习:近期趋势概述

    NLP&深度学习:近期趋势概述 摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新 ...

  6. 图解BERT(NLP中的迁移学习)

    目录 一.例子:句子分类 二.模型架构 模型的输入 模型的输出 三.与卷积网络并行 四.嵌入表示的新时代 回顾一下词嵌入 ELMo: 语境的重要性 五.ULM-FiT:搞懂NLP中的迁移学习 六.Tr ...

  7. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  8. NLP是什么

    NLP是什么 而在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言. 这包括,既要能让计算机理解自然语 ...

  9. 聊天机器人(chatbot)终极指南:自然语言处理(NLP)和深度机器学习(Deep Machine Learning)

    在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料. 时不时地我会发现一个出色的资源,因此 ...

随机推荐

  1. 中文情感分析——snownlp类库 源码注释及使用

    最近发现了snownlp这个库,这个类库是专门针对中文文本进行文本挖掘的. 主要功能: 中文分词(Character-Based Generative Model) 词性标注(TnT 3-gram 隐 ...

  2. 百度前端技术学院task1.10

    任务十:Flexbox 布局练习 面向人群: 有一定HTML及CSS基础的同学 难度: 中 重要说明 百度前端技术学院的课程任务是由百度前端工程师专为对前端不同掌握程度的同学设计.我们尽力保证课程内容 ...

  3. JavaIO学习:字符流

    JavaIO流之字符流 字符流 Reader InputStreamReader FileReader:专门用于处理文件的字符读取流对象. Writer OutputStreamWriter File ...

  4. Python range() 函数用法及字符串下标

    range() 函数用法 range() 函数可创建一个整数列表,一般用在 for 循环中 range() 函数的表示方法: range(start, stop[, step]) start: 计数从 ...

  5. 优化、分析Mysql表读写、索引等操作的sql语句效率优化问题

    为什么要优化: 随着实际项目的启动,数据库经过一段时间的运行,最初的数据库设置,会与实际数据库运行性能会有一些差异,这时我们 就需要做一个优化调整. 数据库优化这个课题较大,可分为四大类: >主 ...

  6. C# 文件操作总结

    一.需求分析 1.将信息记录到本地记事本中. 2.将记录的信息读取出来. 3.计算出某个文件夹下所有后缀名为txt的数量和dll的数量. 4.从网络上下载文件. 二.二话不说上代码 using Sys ...

  7. Delphi - 利用TRzTrayIcon实现WinFrm工程最小化到托盘

    第三方RC控件的安装 浏览器搜索Delphi Rz控件下载,找到下载一个安装文件,解压后点击RC3.exe一键安装. Delphi WinFrm工程最小化到托盘 Delphi新建WinFrm工程,在主 ...

  8. ElementUI如何展开指定Tree树节点

    原文:https://blog.csdn.net/gaojie_csdn/article/details/80738488 [问题] 在页面使用ElementUI的时候,想做出一个主动展开树节点的效果 ...

  9. docker基础应用

    环境: centos 7  docker 19.03.0-beta3  192.168.10.10 关于如何安装docker请参考:https://www.cnblogs.com/caesar-id/ ...

  10. 递归---Day29

    递归的概述 递归:指在当前方法内自己调用自己的方式叫做递归 递归的分类: 1.直接递归称为方法自身调用自己. 2.间接递归可以用A方法调用B方法,用B方法调用C方法,用C方法调用A方法. 递归的注意事 ...