wordvector to sentence vector

wordvector已经通过word2vec训练出来了，可是如何通过WV得到SV（Sentence Vector）？

思路1：

直接将句子的向量叠加取平均：效果很不好，每个词没有考虑权重，获取的向量会平均的靠近每一个词

思路2：

方法同上，可是使用关键词算法，对不同的词给与不同的权重：还没有测试，可是我一直对于短文本，关键词的常见算法很不放心。比如TF-IDF的权重，本身也只是一个假设，并不是真的意义上可以说明这个词很关键，并量化。只有到其他方法都不行，我才会考虑这个方法。

思路3：

使用gensim的doc2vec，也是参照了Mikolov2014年的文章“Distributed Representations of Sentences and Documents”.

花了一个早上学会了使用这个包，可是这个的实现实在是很难用，有关的使用案例又非常少，而且我也没有足够的时间去学习这篇文章，最后测试的结果并不好，所以此方法暂且按下不表。

思路4：

知乎上知友提供了一个思路，是一个浙大数学系的人在BAT工作的时候，他们探讨并最后确定实践的方案，据说效果非常好。

链接稍后附上，原理是：

我们word2vec训练出来的模型，构成了一个比如10000词的词典，而在词袋模型中，我们通常是用一个词是否出现、或者出现几次，构成一个稀疏矩阵。

如果一个句子是：我爱北京天安门

在word2vec训练下，与‘我’相似的的TOPN个词，分别有相似度对应，把这几个词的相似度，放到这个稀疏矩阵对应的位置上。相当于，我们从word2vec训练后，得到的信息A，把这个信息放到稀疏矩阵里。

这个思路其实非常巧妙，实现也容易。实现之后，对于520个问题的相似度（采用余弦相似度）匹配，发现TOP250对，都是非常准确的。相似度基本在0.3以上(相似度1为完全相同)的基本是很相似的问句。（因为做了one hot映射，所以相似度-不同的词数的曲线，会前几个骤减，）

到了这部，我们已经可以结合word2vec和one-hot映射得到句子向量，并根据句子向量得到相似度，可是我们依然无法解决长短句难以相似的问题。

首先，一个很长的句子，如果包含了大量的信息，明显是无法直接和短句子进行相似度匹配的，所以我们需要对特征进行提取。

改进思路：加入句法分析，使用分析得到的标签提取关键词，如果这样提取的效果不好，最后还是得尝试使用关键词算法。

wordvector to sentence vector的更多相关文章

Gensim进阶教程：训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
[leetcode-557-Reverse Words in a String III]
Given a string, you need to reverse the order of characters in each word within a sentence whilestil ...
AI佳作解读系列(四)——数据增强篇
前言在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...
通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...
google tensorflow bert代码分析
参考网上博客阅读了bert的代码,记个笔记.代码是 bert_modeling.py 参考的博客地址: https://blog.csdn.net/weixin_39470744/article/de ...
26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL
26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL In the beginning of August I got the chance t ...
【paddle学习】词向量
http://spaces.ac.cn/archives/4122/ 关于词向量讲的很好上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...
2017年计算语义相似度最新论文，击败了siamese lstm，非监督学习
Page 1Published as a conference paper at ICLR 2017AS IMPLE BUT T OUGH - TO -B EAT B ASELINE FOR S EN ...
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记这 ...

随机推荐

[转]获取app的内部储存路径
首先内部存储路径为/data/data/youPackageName/,下面讲解的各路径都是基于你自己的应用的内部存储路径下.所有内部存储中保存的文件在用户卸载应用的时候会被删除. 一. files1 ...
linux 下 sublime配置
sublime3 import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = sublime.installed_p ...
C语言复制图片文件
以下代码将文件一的图片复制到文件二中 #include<stdio.h> #include<stdlib.h> int main() { char ch; char fname ...
Jumpserver堡垒机
堡垒机介绍搭建简易堡垒机安装步骤 wget --no-check-certificate https://olivier.sessink.nl/jailkit/jailkit-2.19.tar.b ...
7.26-STOIRegularMatch-08-#14
A-3 SRM 08 描述给一个 01 串设为其 S,询问是否存在只出现两次的 01 串 T. 这里的出现定义为存在一串下标 ,满足且 . 输入格式一行,一个 01 串输出格式一行,字母 ...
ubuntu为文件添加可执行权限
为一个文件添加可执行权限 chmod +x filename 为一个文件夹下的所有文件添加可执行权限 chmod +x *
shell脚本之xargs使用的一些案例
首先看一下文本信息: # cat text1.txt 1 2 3 4 5 使用xargs格式化一下: # cat text1.txt | xargs 1 2 3 4 5 使用xargs格式化,每两个 ...
zookerper安装部署
********************单节点安装zk*************************上传zk安装包到服务器/mnt目录下: [root@chavin ~]$ ll /mnt/zoo ...
winform 科学计数法转为小数
先强制转换为decimal. 例如: double xyTolerance = 0.000000008983001; txtXYTolerance.Text = ((decimal)xyToleran ...
[daily] 像tcpdump一样监听unix domain socket
如题. 见: https://superuser.com/questions/484671/can-i-monitor-a-local-unix-domain-socket-like-tcpdump? ...

wordvector to sentence vector

wordvector to sentence vector的更多相关文章

随机推荐

热门专题