NLP︱高级词向量表达（三）—

如果说FastText的词向量在表达句子时候很在行的话，GloVe在多义词方面表现出色，那么wordRank在相似词寻找方面表现地不错。

其是通过Robust Ranking来进行词向量定义。

相关paper：WordRank: Learning Word Embeddings via Robust

Ranking

相关博客：https://rare-technologies.com/wordrank-embedding-crowned-is-most-similar-to-king-not-word2vecs-canute/?from=singlemessage&isappinstalled=0#

查询king关键词，WordRank 、 word2vec、fastText三者效果对比：

WordRank 、fastText都相对比较精准“crowned”、“throne”，而不是word2vec的“Canute”

.

.

1、wordRank，与 word2vec、fastText三者对比

来源博客：《WordRank embedding: “crowned” is most similar to “king”, not word2vec’s “Canute”》

根据Ranking算法得到的wordRank，与 word2vec、fastText三者对比

在不同的项目需求上，有着不同的训练精度，在句法表达上，fastText更好，而在单个词语的相似性等内容表达上wordRank是三者中最好的。

同时随着数据量的增加精度呈现增长的趋势。

.

.

2、wordRank，与 word2vec、GloVe三者对比

来源paper：WordRank: Learning Word Embeddings via Robust Ranking

（1）精度

左图使用数据：WS-353 word similarity benchmark

右图使用数据：Google word analogy benchmark

从两个数据集的效果来看，wordRank效果极佳

（2）词类比与词相似比较

相似词的寻找方面极佳，词类比方面不同数据集有不同精度。

高级词向量三部曲：

1、NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）

2、NLP︱高级词向量表达（二）——FastText（简述、学习笔记）

3、NLP︱高级词向量表达（三）——WordRank（简述）

4、其他NLP词表示方法paper:从符号到分布式表示NLP中词各种表示方法综述

NLP︱高级词向量表达（三）——WordRank（简述）的更多相关文章

NLP︱高级词向量表达（二）——FastText（简述、学习笔记）
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper: ...
NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）
有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的 ...
NLP之词向量
1.对词用独热编码进行表示的缺点向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2.任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之 ...
NLP获取词向量的方法（Glove、n-gram、word2vec、fastText、ELMo 对比分析）
自然语言处理的第一步就是获取词向量,获取词向量的方法总体可以分为两种两种,一个是基于统计方法的,一种是基于语言模型的. 1 Glove - 基于统计方法 Glove是一个典型的基于统计的获取词向量的方 ...
深度学习之NLP获取词向量
1.代码 def clean_text(text, remove_stopwords=False): """ 数据清洗 """ text = ...
NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...
DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec
DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
词向量1.md
词向量我们以句子分类为例,我们使用深度学习模型对句子进行分类,本质上这个模型的接受的舒服需要是数值型.因为文字是人们抽象出来的一个概念,这个东西是不能被计算机直接理解的,我们需要人为的将这个文字转 ...

随机推荐

【转】fread函数详解
“fread”以二进制形式,从文件读出数据. 语法1:[a,count]=fread(fid,size,precision) 语法2:[a,count]=fread(fid,size,precisio ...
Struts2是什么？
Struts2是什么: Struts2是整合了struts1和webwork的技术优点的使用广泛的MVC框架: Struts2的特点: 1.基于MVC框架,结构清晰,便于开发人员掌控开发流程: 2.使 ...
JavaScript：事件对象Event和冒泡
本文最初发表于博客园,并在GitHub上持续更新前端的系列文章.欢迎在GitHub上关注我,一起入门和进阶前端. 以下是正文. 绑定事件的两种方式我们在上一篇文章中已经讲过事件的概念.这里讲一下注册 ...
01_Linux软件源配置
一.国内软件源阿里源:https://mirrors.aliyun.com/ 清华大学:https://mirrors.tuna.tsinghua.edu.cn/ 中科大 : https://mir ...
数据库MySQL的基本操作
1.MySQL数据库的安装: CentOS6上mysql服务端和客户端的安装和启动: #使用yum安装mysql数据库的服务端和客户端 yum install -y mysql mysql-serve ...
CentOS 6.3 SSH连接时很慢的解决方法
SSH的配置文件,默认开启了DNS反向解析,这使得处于同一个局域网下的终端,在SSH到服务器的时候异常缓慢,如果从是外网SSH到服务器的话,速度则是正常的.我们只需要关闭DNS反向解析即可. 修改/e ...
iOS设备唯一标识的前世今生
设备唯一标识估计很多开发都有被要求过获取一下设备的唯一标识,获取设备的唯一标识经常使用在我们做统计或者是在保证一台设备登录亦或者是做IM的时候可能会考虑去使用它,这一次在自己的需求当中就有一个&qu ...
Codevs 3990 [中国剩余定理]
模板题注意如何得到[a,b]区间范围内的解 #include <iostream> #include <cstdio> #include <cstring> #i ...
POJ 3304 Segments[直线与线段相交]
Segments Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 13514 Accepted: 4331 Descrip ...
Promise对象的简单用法
要了解一个东西,首先要从,它是什么.用来做什么以及怎么取用它这三个方面来了解. 首先,promise是什么? 我们来参考一下MDN对它的定义: Promise 对象用于一个异步操作的最终完成(或失败) ...

NLP︱高级词向量表达（三）——WordRank（简述）

1、wordRank，与 word2vec、fastText三者对比

2、wordRank，与 word2vec、GloVe三者对比

高级词向量三部曲：

NLP︱高级词向量表达（三）——WordRank（简述）的更多相关文章

随机推荐

热门专题