This is a test for word2vec
Wed Nov 07 16:47:19 2018
dir of model1: ./model/window3_ min_count2_worker4_sg0_sess1105/size_80.model
dir of model2: ./model/window3_ min_count2_worker4_sg0_sess1105/size_110.model

80         110         150

绑定     1

关联                    1

厨打     1

促销

支付     1

预约     1

导入     1

哪里

导入

关闭      1

size80 的效果出乎意料的好,可能也是考虑到我们目前的训练数据并不是特别多,

除了相似度高意外,很符合我们对近义词的要求,可以有效的解决歧义

厨打
====== model1 ======
[('厨房', 0.7792487144470215), ('KDS', 0.6969343423843384), ('厨房打印机', 0.6915861368179321), ('kds', 0.6875752210617065),

====== model2 ======
[('厨房', 0.7365704774856567), ('厨房打印机', 0.6782543063163757), ('总控', 0.6597431898117065), ('kds', 0.6522904634475708),

====== model3 ======
[('厨房', 0.7174404859542847), ('厨房打印机', 0.643281102180481), ('总控', 0.641669750213623), ('kds', 0.6321718692779541), ('后厨', 0.6275204420089722),

后台
====== model1 ======
[('云后台', 0.7980374693870544), ('前台', 0.7327364683151245), ('云端', 0.6401246190071106), ('后天', 0.6294926404953003)

[('云后台', 0.7991924285888672), ('前台', 0.6874397993087769), ('后天', 0.6474512815475464), ('云端', 0.6466808319091797),

[('云后台', 0.7783473134040833), ('后天', 0.6452266573905945), ('前台', 0.6173823475837708), ('云端', 0.5968232750892639),

size高有助于识别错别字,但是考虑到错别字出现的频率,如果出现的频率很高的话,可能也可以在低维就识别出来

word2vec 评测 size_diff的更多相关文章

  1. word2vec 评测 window_different

    This is a test for word2vecWed Nov 07 16:04:39 2018dir of model1: ./model/window3_ min_count2_worker ...

  2. word2vec 评测 sg=0 sg=1 size=100 window=3

    1.评价sg=0与sg=1的区别    结果原文:sg_difference.txt sg=0     sg=1 绑定                         1 关联            ...

  3. 【paddle学习】词向量

    http://spaces.ac.cn/archives/4122/   关于词向量讲的很好 上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...

  4. [转]word2vec使用指导

    word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...

  5. word2vec使用说明补充(google工具包)

    [本文转自http://ir.dlut.edu.cn/NewsShow.aspx?ID=253,感谢原作者] word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的 ...

  6. word2vec使用说明

    word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...

  7. Word2Vec在Tensorflow上的版本以及与Gensim之间的运行对比

    接昨天的博客,这篇随笔将会对本人运行Word2Vec算法时在Gensim以及Tensorflow的不同版本下的运行结果对比.在运行中,参数的调节以及迭代的决定本人并没有很好的经验,所以希望在展出运行的 ...

  8. word2vec c代码使用说明

    摘要: 1 分词 将文本语料进行分词,以空格,tab隔开都可以.生成分词后的语料 2 训练 对分词后的语料test.txt 进行训练得到模型文件vectors.bin /word2vec -train ...

  9. 【转载】word2vec原理推导与代码分析

    本文的理论部分大量参考<word2vec中的数学原理详解>,按照我这种初学者方便理解的顺序重新编排.重新叙述.题图来自siegfang的博客.我提出的Java方案基于kojisekig,我 ...

随机推荐

  1. 180714、JRebel插件安装配置与破解激活(多方案)详细教程

    JRebel 介绍 IDEA上原生是不支持热部署的,一般更新了 Java 文件后要手动重启 Tomcat 服务器,才能生效,浪费不少生命啊.目前对于idea热部署最好的解决方案就是安装JRebel插件 ...

  2. (广度搜索)A - Prime Path(11.1.1)

    A - Prime Path(11.1.1) Time Limit:1000MS    Memory Limit:65536KB    64bit IO Format:%I64d & %I64 ...

  3. day3 三、基本数据类型和运算符

    一.多行注释和单行注释 """ 多行注释 多行注释 多行注释 """ # 单行注释 # print('hello world') # pri ...

  4. .NET Core 2.2发布一览

    本周终于发布了.NET Core 2.2,ASP.NET Core 2.2以及Entity Framework Core 2.2,虽然更大的新闻可能是.NET Core 3.0的特性公布,但不妨先将现 ...

  5. .NET Core开发日志——Runtime IDentifier

    .NET Core对于传统.NET开发人员而言是既熟悉又陌生的新平台,所以有时遇上出乎意料的事情也纯属正常情况.这时只需点耐心,多查查资料,努力找到原因,也未尝不是件有意义的体验. 比如当建完一个最简 ...

  6. linux 编程

    edit skill: 1. i:当前光标前插入 2. a:当前光标后插入 3. SHIFT+a—行尾插入 4. SHIFT+i—行首插入 5. o—>下一行插入 6. SHIFT+o--上一行 ...

  7. Eclipse各个版本区别

    1.eclipse下载地址: 最新版:http://www.eclipse.org/downloads/ 历史版:http://archive.eclipse.org/eclipse/download ...

  8. vim操作表

  9. Django:环境搭建

    django环境配置 1.安装django pip install django #安装指定版本 pip install -v django==1.8.2 通过python shell查看版本,返回版 ...

  10. 使用babel与@babel/node

    安装 yarn add -D @babel/cli @babel/node 编译entry-server.js yarn babel ./src/ssr/entry-server.js --prese ...