one-hot映射时,如何选取TOPN作为每一个词承载的word2vec的信息?

我们已经知道,对于这种例子:

怎么绑定手机号?

怎么关联手机号?

他们的相似度取决于绑定和关联这两个词如何相似。

#取top2词的相似度
vec_i = np.array([1, 0.73, 0.71, 0])
vec_j = np.array([0.71, 0.73, 1, 0.71]) dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.549468959038795 #取top1词的相似度
vec_i = np.array([ 1, 0.73, 0 ])
vec_j = np.array([ 0.71, 0 , 1 ] )
dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.44021580019602347 #取top3词的相似度
vec_i = np.array([ 1, 0.73, 0.71, 0.69, 0])
vec_j = np.array([0.71, 0.668, 1, 0, 0.71])
dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.48229348920534326 在这种情况下,选取TOP2相似度是最高的,可以很好的近似匹配。思想是,在取的TOPN尽可能少的情况下,让TOPN里,相同的词出现的尽可能多,有助于提高相似度。可是那对于不相似的句子呢? 我们应该让相似的句子,相似度更高,不相似的句子,相似度更低,拉开差距。 方案一:按照原来的TOP3+similarity 怎么 怎样 如何 怎么样 支付 付款 微信支付 收款 打印 打 印 打出
怎么支付 [ 1, 0.85, 0.83, 0.70, 1, 0.77, 0.72, 0.67, 0, 0, 0, 0]
如何支付 [0.83, 0.87, 1, 0.63, 1, 0.77, 0.72, 0.67, 0, 0, 0, 0]
如何打印 [0.83, 0.87, 1, 0.63, 0, 0, 0, 0, 1, 0.78, 0.69, 0.69] 怎么支付-如何支付=0.7992345674654612
如何支付-如何打印=0.3064740995892663
怎么支付-如何打印=0.3051741090737826 方案二:如果两个句子之间,映射完之后有相同词的,相似度保留,如果没有相同词,那么就令那个词为1,这样可以有效的拉开相似度句子,和不相似的句子之间的相似度差距。
              怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出
怎么支付      [ 1,     0.85,   0.83,   0.70,    1,     0.77,  0.72,      0.67,    0,      0,    0,    0]
如何支付      [0.83,    0.87,    1,    0.63,    0,       0,     0,        0,      1,      1,     1,   1]
(这是第一对)
               怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出

如何支付        [0.83,    0.87,    1,    0.63,     1,       1,     1,        1,    0,      0,    0,    0]
如何打印        [0.83,    0.87,    1,    0.63,    0,        0,     0,        0,     1,      1,    1,   1]

             怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出

怎么支付      [ 1,     0.85,   0.83,   0.70,    1,     0.77,  0.72,      0.67,    0,      0,    0,    0]
如何打印      [0.83,    0.87,    1,    0.63,    0,        0,     0,        0,     1,    0.78,  0.69,   0.69]

怎么支付-如何支付=0.7992345674654612
如何支付-如何打印=0.2612038749637414
怎么支付-如何打印=0.26044652136360963
结果:明显的降低了不同意思的句子之间的差距,对于不同的句子之间,进行了相似度对比增强。对于原本就很相似的句子,影响不大。

不过如果我们要这么做,需要多做一步,就是对于已经生成的两个句子向量做比对,将没有同时出现的词,做1值处理。
而且具体效果,需要我们实际测试才知道。

one-hot句子向量 对比度增强的更多相关文章

  1. opencv----彩色图像对比度增强

    图像对比度增强的方法可以分成两类:一类是直接对比度增强方法;另一类是间接对比度增强方法. 直方图拉伸和直方图均衡化是两种最常见的间接对比度增强方法. 直方图拉伸是通过对比度拉伸对直方图进行调整,从而“ ...

  2. ISP图像调试工程师——对比度增强(熟悉图像预处理和后处理技术)

    经典对比度增强算法: http://blog.csdn.net/ebowtang/article/details/38236441

  3. (二)OpenCV-Python学习—对比度增强

    ·对于部分图像,会出现整体较暗或较亮的情况,这是由于图片的灰度值范围较小,即对比度低.实际应用中,通过绘制图片的灰度直方图,可以很明显的判断图片的灰度值分布,区分其对比度高低.对于对比度较低的图片,可 ...

  4. 基于Doc2vec训练句子向量

    目录 一.Doc2vec原理 二.代码实现 三.总结   一.Doc2vec原理 前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的.那接着 ...

  5. opencv —— equalizeHist 直方图均衡化实现对比度增强

    直方图均匀化简介 从这张未经处理的灰度图可以看出,其灰度集中在非常小的一个范围内.这就导致了图片的强弱对比不强烈. 直方图均衡化的目的,就是把原始的直方图变换为在整个灰度范围(0~255)内均匀分布的 ...

  6. SSE图像算法优化系列十九:一种局部Gamma校正对比度增强算法及其SSE优化。

    这是一篇2010年比较古老的文章了,是在QQ群里一位群友提到的,无聊下载看了下,其实也没有啥高深的理论,抽空实现了下,虽然不高大上,还是花了点时间和心思优化了代码,既然这样,就顺便分享下优化的思路和经 ...

  7. 对比度增强(二):直方图正规划与伽马变换 cv.normal()函数使用及原理

    直方图正规化: 图像为I,宽为W,高为H,I(r,c)代表I的第r行第c列的灰度值:输出图像记为O,为使得输出图像的灰度值在[Omin,Omax]范围里,可用如下公式:                 ...

  8. 通过灰度线性映射增强图像对比度实现PS中的色阶

    通过灰度线性映射增强图像对比度 Halcon中如何通过灰度线性映射增强图片对比度呢?不急,我先讲点其他的. 如果你用过Photoshop,那么想必对增强图像的对比度很熟悉.在Photoshop中,我们 ...

  9. 将句子表示为向量(上):无监督句子表示学习(sentence embedding)

    1. 引言 word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展.既然词可以embedding,句子也应该可以(其实,万物皆可embeddin ...

随机推荐

  1. 如何使用swfobject(中文版)

    1.SWFObject是什么? SWFObject 2提供两种优化flash播放器的嵌入方法:基于标记的方法和依赖于js的方法. SWFObject 2提供一个js的API,为嵌入SWF文件和获取Fl ...

  2. 有重复行,查询时只保留最新一行的sql

    一.表结构如下:表名test 二.sql select temp.* from (select test.*, row_number() over(partition by obd_code orde ...

  3. Python赋值与深浅拷贝

    赋值: >> a = [1, 2, 3] >>> b = a >>> a = [4, 5, 6] //赋新的值给 a >>> a [4 ...

  4. Hbase建表时遇到的问题This could be a sign that the server has too many connections

    Hbase创建表时遇到以下错误: ERROR: org.apache.hadoop.hbase.ZooKeeperConnectionException: HBase is able to conne ...

  5. [No0000B9]C# 类型基础 值类型和引用类型 及其 对象复制 浅度复制vs深度复制 深入研究2

    接上[No0000B5]C# 类型基础 值类型和引用类型 及其 对象判等 深入研究1 对象复制 有的时候,创建一个对象可能会非常耗时,比如对象需要从远程数据库中获取数据来填充,又或者创建对象需要读取硬 ...

  6. [转载]win7x64下的redis安装与使用

    原文应用为:`https://www.cnblogs.com/koal/p/5484916.html` 先引用百度百科的一段话吧,具体可以到百科查看吧. Redis是一个开源的使用ANSI C语言编写 ...

  7. pytorch定义一个简单的神经网络

    刚学习pytorch,简单记录一下 """ test Funcition """ import torch from torch.autog ...

  8. RuntimeError - [Xcodeproj] Unknown object version.解决方法

    wjw:layoutInScrollView username$ pod install Analyzing dependencies xcode-select: error: tool 'xcode ...

  9. 网关 整理 fastcgi wsgi

    https://www.cnblogs.com/hzhtracy/p/4365938.html 网关协议学习:CGI.FastCGI.WSGI.uWSGI   一直对这四者的概念和区别很模糊,现在就特 ...

  10. 知乎如何基于开源Druid打造下一代数据平台?

    https://mp.weixin.qq.com/s/WXA_Pn5xwlL-cA4JaGRw6Q