翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings

叶娜老师说:“读懂论文的最好方法是翻译它”。我认为这是很好的科研训练,更加适合一个陌生领域的探索。因为论文读不懂,我总结无非是因为这个领域不熟悉。如果是自己熟悉的领域,那么读起来肯定会比较顺畅。

原文

摘要

[1] Recent trends suggest that neural-network-inspired word embedding models outperform traditional count-based distributional models on word similarity and analogy detection tasks.

[2] We reveal that much of the performance gains of word embeddings are due to certain system design choices and hyper-parameter optimizations, rather than the embedding algorithms themselves.

[3] Furthermore, we show that these modifications can be transferred to traditional distributional models, yielding similar gains.

[4] In contrast to prior reports, we observe mostly local or insignificant performance differences between the methods, with no global advantage to any single approach over the others.

结论

[1] Recent embedding methods introduce a plethora of design choices beyond network architecture and optimization algorithms.

[2] We reveal that these seemingly minor variations can have a large impact on the success of word representation methods.

[3] By showing how to adapt and tune these hyper-parameters in traditional methods, we allow a proper comparison between representations, and challenge various claims of superiority from the word embedding literature.

(下启第二段)

[4] This study also exposes the need for more controlled-variable experiments, and extending the concept of “variable” from the obvious task, data, and method to the often ignored preprocessing steps and hyper-parameter settings.

[5] We also stress the need for transparent and reproducible experiments, and commend authors such as Mikolov, Pennington, and others for making their code publicly available.

[6] In this spirit, we make our code available as well.

译文

摘要

[1] 最近的趋势表明,神经网络启发的嵌入词模型在词语相似度和词语类比检测任务上优于传统的基于计数的分布式模型。

[2] 我们发现,词嵌入的性能提高很大程度上是由于特定系统设计选择和超参数优化,而不是词嵌入算法本身(带来的性能提升)。

[3] 此外,我们还表明,这些修改可以转移到传统的分布模型,从而产生类似的增益。

[4] 与之前的报告相比,我们观察到方法之间主要存在局部或微小的性能差异,与其他方法相比,没有任何整体优势。

结论

[1] 最近的嵌入方法引入了过剩的网络体系结构和优化算法之外的设计选择。

[2] 我们发现,这些看似微小的变化可能会对单词表达方法的效果产生很大的影响。

[3] 通过展示如何在传统方法中采纳以及调整这些超参数,我进行了在各种表示方法之间的适当比较,并从词嵌入文献中挑战各种主张。

[4] 这项研究还暴露了对更多可控变量实验的需求,并将“变量”的概念从明显的任务、数据和方法扩展到经常被忽略的预处理步骤和超参数设置。

[5] 我们还强调需要透明和可重复的实验,并赞扬 Mikolov,Pennington 等作者公开提供其代码。

[6] 本着这种精神,我们也提供了代码。

感悟

这篇文章是一项对比研究,旨在揭示基于神经网络的词表示学习方法所带来的效果提升,在于超参数的设置,而不是网络结构的改进。

翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings的更多相关文章

  1. Lessons learned developing a practical large scale machine learning system

    原文:http://googleresearch.blogspot.jp/2010/04/lessons-learned-developing-practical.html Lessons learn ...

  2. Lessons learned from manually classifying CIFAR-10

    Lessons learned from manually classifying CIFAR-10 Apr 27, 2011 CIFAR-10 Note, this post is from 201 ...

  3. Lessons Learned from Developing a Data Product

    Lessons Learned from Developing a Data Product For an assignment I was asked to develop a visual ‘da ...

  4. Elasticsearch Mantanence Lessons Learned Today

    Today I troubleshooted an Elasticsearch-cluster-down issue. Several lessons were learned: When many ...

  5. Lessons Learned 1(敏捷项目中的变更影响分析)

    问题/现象: 业务信息流转的某些环节,会向相关人员发送通知邮件,邮件中附带有链接,供相关人员进入察看或处理业务.客户要求邮件中的链接,需要进行限制,只有特定人员才能进入处理或察看.总管想了想,应道没问 ...

  6. Paper Reading - Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge

    Link of the Paper: https://arxiv.org/abs/1609.06647 A Correlative Paper: Show and Tell: A Neural Ima ...

  7. 【机器学习Machine Learning】资料大全

    昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...

  8. 机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】

    转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...

  9. 机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

    <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

随机推荐

  1. rbac权限控制,基于无线分类

    2018年9月18日11:21:28 数据库结构 CREATE TABLE `admin` ( `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `c ...

  2. [05-02]红帽linux常用操作命令

    命令怎么用(三种方式) shutdown --help shutdown --? man shutdown  (man 就是manual  手册, 指南) 服务 service 怎么知道服务的名字呢? ...

  3. 学习ActiveMQ(八):activemq消息的持久化

    1. 持久化方式介绍前面我们也简单提到了activemq提供的插件式的消息存储,在这里再提一下,主要有以下几种方式: AMQ消息存储-基于文件的存储方式,是activemq开始的版本默认的消息存储方式 ...

  4. Spark入门到精通--(第九节)环境搭建(Hive搭建)

    上一节搭建完了Hadoop集群,这一节我们来搭建Hive集群,主要是后面的Spark SQL要用到Hive的环境. Hive下载安装 下载Hive 0.13的软件包,可以在百度网盘进行下载.链接: h ...

  5. Eclipse集成Hadoop插件

    一.Eclipse集成Hadoop插件 1.在这之前我们需要配置真机上的hadoop环境变量 注:在解压tar包的时候普通解压会出现缺文件的现象,所以在这里我们需要用管理员的方式启动我们的解压软件(我 ...

  6. JAVA中使用alibaba fastjson实现JSONObject、Object、Json字符串的转换

    JAVA中使用alibaba fastjson实现JSONObject.Object.Json字符串的转换 Object转JSON字符串:String jsonStr = JSONObject.toJ ...

  7. python多进程multiprocessing模块中Queue的妙用

    最近的部门RPA项目中,小爬为了提升爬虫性能,使用了Python中的多进程(multiprocessing)技术,里面需要用到进程锁Lock,用到进程池Pool,同时利用map方法一次构造多个proc ...

  8. python项目推荐(转载知乎)

    作者:Wayne Shi链接:https://www.zhihu.com/question/29372574/answer/88744491来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  9. 22.C# 事件

    1.事件的含义 事件和异常类似,它们都是由对象引发,我们可以提供代码处理它们.不同的是事件并没有使用try ..catch这样的代码来处理,而是要订阅事件,订阅的含义是提供一段事件处理代码,在事件发送 ...

  10. Python学习笔记(Ⅱ)——循环/选择/函数

    一.循环结构 python中提供了for循环和while循环两种操作,没有do……while语句. 1.for循环: 与其他语言中for循环的常见的写法如for (int i=0;i<10;i+ ...