wordvector已经通过word2vec训练出来了,可是如何通过WV得到SV(Sentence Vector)?

思路1:

直接将句子的向量叠加取平均:效果很不好,每个词没有考虑权重,获取的向量会平均的靠近每一个词

思路2:

方法同上,可是使用关键词算法,对不同的词给与不同的权重:还没有测试,可是我一直对于短文本,关键词的常见算法很不放心。比如TF-IDF的权重,本身也只是一个假设,并不是真的意义上可以说明这个词很关键,并量化。只有到其他方法都不行,我才会考虑这个方法。

思路3:

使用gensim的doc2vec,也是参照了Mikolov2014年的文章“Distributed Representations of Sentences and Documents”.

花了一个早上学会了使用这个包,可是这个的实现实在是很难用,有关的使用案例又非常少,而且我也没有足够的时间去学习这篇文章,最后测试的结果并不好,所以此方法暂且按下不表。

思路4:

知乎上知友提供了一个思路,是一个浙大数学系的人在BAT工作的时候,他们探讨并最后确定实践的方案,据说效果非常好。

链接稍后附上,原理是:

我们word2vec训练出来的模型,构成了一个比如10000词的词典,而在词袋模型中,我们通常是用一个词是否出现、或者出现几次,构成一个稀疏矩阵。

如果一个句子是:我 爱 北京 天安门

在word2vec训练下,与‘我’相似的的TOPN个词,分别有相似度对应,把这几个词的相似度,放到这个稀疏矩阵对应的位置上。相当于,我们从word2vec训练后,得到的信息A,把这个信息放到稀疏矩阵里。

这个思路其实非常巧妙,实现也容易。实现之后,对于520个问题的相似度(采用余弦相似度)匹配,发现TOP250对,都是非常准确的。相似度基本在0.3以上(相似度1为完全相同)的基本是很相似的问句。   (因为做了one hot映射,所以相似度-不同的词数的曲线,会前几个骤减,)

到了这部,我们已经可以结合word2vec和one-hot映射得到句子向量,并根据句子向量得到相似度,可是我们依然无法解决长短句难以相似的问题。

首先,一个很长的句子,如果包含了大量的信息,明显是无法直接和短句子进行相似度匹配的,所以我们需要对特征进行提取。

改进思路:加入句法分析,使用分析得到的标签提取关键词,如果这样提取的效果不好,最后还是得尝试使用关键词算法。

wordvector to sentence vector的更多相关文章

  1. Gensim进阶教程:训练word2vec与doc2vec模型

    本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...

  2. [leetcode-557-Reverse Words in a String III]

    Given a string, you need to reverse the order of characters in each word within a sentence whilestil ...

  3. AI佳作解读系列(四)——数据增强篇

    前言 在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...

  4. 通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构

    catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...

  5. google tensorflow bert代码分析

    参考网上博客阅读了bert的代码,记个笔记.代码是 bert_modeling.py 参考的博客地址: https://blog.csdn.net/weixin_39470744/article/de ...

  6. 26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL

    26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL In the beginning of August I got the chance t ...

  7. 【paddle学习】词向量

    http://spaces.ac.cn/archives/4122/   关于词向量讲的很好 上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...

  8. 2017年计算语义相似度最新论文,击败了siamese lstm,非监督学习

    Page 1Published as a conference paper at ICLR 2017AS IMPLE BUT T OUGH - TO -B EAT B ASELINE FOR S EN ...

  9. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记

    AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记 这 ...

随机推荐

  1. 导入Excel 类型的数据

    thinkphp 访问此控制方法就可以导入了 //数据导入 public function impUser(){ if (!empty($_FILES)) { $upload = new \Think ...

  2. el表达式用==和eq的注意事项

    eq和==一般是一样的,但是注意el表达式中使用==判断的时候不允许有空格,例如: ${job.jobName==requestScope.user.job.jobName?"selecte ...

  3. oracle中如何生成awr报告

    oracle中如何生成awr报告   1.进入数据库 sqlplus / as sysdba 2.查看用户 show parameter db_name 3.开始压测后执行 exec DBMS_WOR ...

  4. MyEclipse中的几种查找方法

    在编程中常常需要用到查找功能,这里根据日常的使用总结一下常用的集中查找方法 Ctrl+H:在MyEclipse中打开Search弹出框,或者在菜单中打开Search弹出框, 定位到 File Sear ...

  5. .NET Core开发日志——Entity Framework与PostgreSQL

    Entity Framework在.NET Core中被命名为Entity Framework Core.虽然一般会用于对SQL Server数据库进行数据操作,但其实它还支持其它数据库,这里就以Po ...

  6. MySQL 安装 用户管理 常用命令

    MySQL目录 数据库概览   数据库介绍 Why Choose MySQL MySQL的前世今生 MySQL的安装   Windows安装MySQL5.721 installer版 Windows安 ...

  7. 【作业】用栈模拟dfs

    题意:一个迷宫,起点到终点的路径,不用递归. 题解: #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdli ...

  8. iOS之WKWebView加载的网页自适应大小

    一,前言 有时候在WKWebView加载页面后会发现页面的字会很小, 这是因为原网页没有做手机屏幕尺寸的适配, 那么在后台不做调整的情况下我们移动端怎样来适配页面呢? 以下代码可以适配大小(原本不可以 ...

  9. [skill] C语言数组名到底是个啥

    1. 正常情况下,数组名是个地址常量. 2. sizeof(数组名)的时候,数组名就代表数字名,其类型为 type array[], 返回数组元素个数. 3. 除了2的情况以外,可以理解为一个指针常量 ...

  10. 深入hash

    hash真的很好用,这些杂一点的知识点我觉得还是很有必要的,对还有离散化. 1<=N<=1,000,000,其它所有数据都在[0...1,000,000,000]范围内 看起来很简单一道水 ...