word2vec 评测 size_diff
This is a test for word2vec
Wed Nov 07 16:47:19 2018
dir of model1: ./model/window3_ min_count2_worker4_sg0_sess1105/size_80.model
dir of model2: ./model/window3_ min_count2_worker4_sg0_sess1105/size_110.model
80 110 150
绑定 1
关联 1
厨打 1
促销
支付 1
预约 1
导入 1
哪里
导入
关闭 1
size80 的效果出乎意料的好,可能也是考虑到我们目前的训练数据并不是特别多,
除了相似度高意外,很符合我们对近义词的要求,可以有效的解决歧义
厨打
====== model1 ======
[('厨房', 0.7792487144470215), ('KDS', 0.6969343423843384), ('厨房打印机', 0.6915861368179321), ('kds', 0.6875752210617065),
====== model2 ======
[('厨房', 0.7365704774856567), ('厨房打印机', 0.6782543063163757), ('总控', 0.6597431898117065), ('kds', 0.6522904634475708),
====== model3 ======
[('厨房', 0.7174404859542847), ('厨房打印机', 0.643281102180481), ('总控', 0.641669750213623), ('kds', 0.6321718692779541), ('后厨', 0.6275204420089722),
后台
====== model1 ======
[('云后台', 0.7980374693870544), ('前台', 0.7327364683151245), ('云端', 0.6401246190071106), ('后天', 0.6294926404953003)
[('云后台', 0.7991924285888672), ('前台', 0.6874397993087769), ('后天', 0.6474512815475464), ('云端', 0.6466808319091797),
[('云后台', 0.7783473134040833), ('后天', 0.6452266573905945), ('前台', 0.6173823475837708), ('云端', 0.5968232750892639),
size高有助于识别错别字,但是考虑到错别字出现的频率,如果出现的频率很高的话,可能也可以在低维就识别出来
word2vec 评测 size_diff的更多相关文章
- word2vec 评测 window_different
This is a test for word2vecWed Nov 07 16:04:39 2018dir of model1: ./model/window3_ min_count2_worker ...
- word2vec 评测 sg=0 sg=1 size=100 window=3
1.评价sg=0与sg=1的区别 结果原文:sg_difference.txt sg=0 sg=1 绑定 1 关联 ...
- 【paddle学习】词向量
http://spaces.ac.cn/archives/4122/ 关于词向量讲的很好 上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...
- [转]word2vec使用指导
word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...
- word2vec使用说明补充(google工具包)
[本文转自http://ir.dlut.edu.cn/NewsShow.aspx?ID=253,感谢原作者] word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的 ...
- word2vec使用说明
word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...
- Word2Vec在Tensorflow上的版本以及与Gensim之间的运行对比
接昨天的博客,这篇随笔将会对本人运行Word2Vec算法时在Gensim以及Tensorflow的不同版本下的运行结果对比.在运行中,参数的调节以及迭代的决定本人并没有很好的经验,所以希望在展出运行的 ...
- word2vec c代码使用说明
摘要: 1 分词 将文本语料进行分词,以空格,tab隔开都可以.生成分词后的语料 2 训练 对分词后的语料test.txt 进行训练得到模型文件vectors.bin /word2vec -train ...
- 【转载】word2vec原理推导与代码分析
本文的理论部分大量参考<word2vec中的数学原理详解>,按照我这种初学者方便理解的顺序重新编排.重新叙述.题图来自siegfang的博客.我提出的Java方案基于kojisekig,我 ...
随机推荐
- 时间模块和random模块
时间模块 和时间有关系的我们就要用到时间模块.在使用模块之前,应该首先导入这个模块. #常用方法 1.time.sleep(secs) (线程)推迟指定的时间运行.单位为秒. 2.time.time( ...
- eclipse下配置Spring环境
工具: jdk1.8 win10 spring5.0 1.准备工作:下载Spring开发应用的插件,api 1.spring插件包:springsource-tool-suite-3.9.4.RELE ...
- 极验(geetest)验证码
最近在做项目的时候,需要用到登录验证,在网上看到了一个很不错的验证插件,在此记录一下使用流程. 极限验证码 官网:http://www.geetest.com/,到GitHub下载服务端代码htt ...
- [No000017B]改善C#程序的建议4:C#中标准Dispose模式的实现
需要明确一下C#程序(或者说.NET)中的资源.简单的说来,C#中的每一个类型都代表一种资源,而资源又分为两类: 托管资源:由CLR管理分配和释放的资源,即由CLR里new出来的对象: 非托管资源:不 ...
- RuntimeError - [Xcodeproj] Unknown object version.解决方法
wjw:layoutInScrollView username$ pod install Analyzing dependencies xcode-select: error: tool 'xcode ...
- 约数,gcd,exgcd.
很多题都是要求出什么最大公约数或者最小公倍数什么的,也有一些题目是和约数个数有关的,所以需要总结一下. 首先最大公约数和最小公倍数怎么求呢? 当然是观察法了,对于一些很聪明的孩纸他们一般随便一看就秒出 ...
- 如何使用Beyond Compare 对比差异文件【制作Patch(补丁包)文件】
场景:研发部的代码从SVN变更至GIt,通过Jenkins每天自动生成程序包. 如需要获取单独的程序包更新,而不是整个程序包覆盖更新,这时候就需要用到Beyond Compare 对比工具 操作步骤1 ...
- 自己写的运用bootstrap和angulajs框架写的demo
登录html: <body ng-app="mainapp"> <div class="container"> <div clas ...
- 洛谷P3234 抄卡组 [HNOI2014] 字符串hash
正解:字符串hash 解题报告: 传送门! 字符串hash是字符串匹配中很常见的一个方法,原理也很好懂,这里就不做太多阐述辣有时间放到hash笔记里面去QAQ 题意不说了挺好理解的,自带一句话概括好评 ...
- SpringBoot 文件上传实践
背景:将上传的文件,如图片,写入指定服务器路径,保存起来.多文件上传时,由于HttpServletRequest不能直接取出文件数据,所以将其强制转换为MultipartHttpServletRequ ...