ICML 2019 分析

Word Embeddings

Understanding the Origins of Bias in Word Embeddings

Popular word embedding algorithms exhibit stereotypical biases, such as gender bias.

The widespread use of these algorithms in machine learning systems can amplify stereotypes in important contexts.

Although some methods have been developed to mitigate this problem, how word embedding biases arise during training is poorly understood.

In this work we develop a technique to address this question.

Given a word embedding, our method reveals how perturbing the training corpus would affect the resulting embedding bias.

By tracing the origins of word embedding bias back to the original training documents, one can identify subsets of documents whose removal would most reduce bias.

We demonstrate our methodology on Wikipedia and New York Times corpora, and find it to be very accurate.

《理解单词嵌入中偏见的起源》

常用的嵌入词算法表现出典型的偏见,如性别偏见。

Analogies Explained: Towards Understanding Word Embeddings

Word embeddings generated by neural network methods such as word2vec (W2V) are well known to exhibit seemingly linear behaviour, e.g. the embeddings of analogy woman is to queen as man is to king'' approximately describe a parallelogram.

This property is particularly intriguing since the embeddings are not trained to achieve it.

Several explanations have been proposed, but each introduces assumptions that do not hold in practice.

We derive a probabilistically grounded definition of paraphrasing that we re-interpret as word transformation, a mathematical description of \(w_x\) is to \(w_y\)''.

From these concepts we prove existence of linear relationship between W2V-type embeddings that underlie the analogical phenomenon, identifying explicit error terms.

《类比解释:对嵌入词的理解》

神经网络方法(如word2vec(w2v))生成的嵌入词通常表现出看似线性的行为,例如,将女性嵌入到皇后中,就像男人对国王“近似描述一个平行四边形”。

这种特性特别有趣,因为嵌入没有经过训练来实现它。

已经提出了几种解释,但每种解释都引入了在实践中不成立的假设。

我们推导了一个基于概率的释义定义,我们将其重新解释为单词转换,一个 \(w_x\) 到 \(w_y\) 的数学描述。

从这些概念中,我们证明了W2V类型嵌入之间存在线性关系,这些嵌入构成了类比现象的基础,识别了显式错误项。

Humor in Word Embeddings: Cockamamie Gobbledegook for Nincompoops

While humor is often thought to be beyond the reach of Natural Language Processing, we show that several aspects of single-word humor correlate with simple linear directions in Word Embeddings.

In particular:

(a) the word vectors capture multiple aspects discussed in humor theories from various disciplines;

(b) each individual's sense of humor can be represented by a vector, which can predict differences in people's senses of humor on new, unrated, words; and

(c) upon clustering humor ratings of multiple demographic groups, different humor preferences emerge across the different groups.

Humor ratings are taken from the work of Engelthaler and Hills (2017) as well as from an original crowdsourcing study of 120,000 words.

Our dataset further includes annotations for the theoretically-motivated humor features we identify.

《文字嵌入中的幽默:繁琐的戈布尔德古克》

虽然幽默通常被认为是超出了自然语言处理的范围,但我们发现,单词幽默的几个方面与嵌入单词的简单线性方向相关。

特别是:

(a)词汇载体从各个学科捕获幽默理论中讨论的多个方面;

(b)每个人的幽默感可由一个矢量表示,该矢量可预测人们在新的、未分级的词语上的幽默感差异;及

(c)通过对多个人口统计学群体的幽默评分进行聚类,不同群体之间会出现不同的幽默偏好。

幽默评分取自Engelthaler和Hills(2017)的作品,以及120000字的原始众包研究。

我们的数据集还包括对我们所识别的理论性幽默特征的注释。

ICML 2019 分析的更多相关文章

  1. ACL 2019 分析

    ACL 2019 分析 word embedding 22篇! Towards Unsupervised Text Classification Leveraging Experts and Word ...

  2. AAAI 2019 分析

    AAAI 2019 分析 Google Scholar 订阅 CoKE : Word Sense Induction Using Contextualized Knowledge Embeddings ...

  3. ICML 2019论文录取Top100:谷歌霸榜

    [导读]人工智能顶级会议ICML 2019发布了今年论文录取结果.提交的3424篇论文中,录取了774篇,录取率为22.6%,较去年有所降低.从录取论文数量来看,谷歌成为今年最大赢家,紧随其后的是MI ...

  4. 《Domain Agnostic Learning with Disentangled Representations》ICML 2019

    这篇文章是ICML 2019上一篇做域适应的文章,无监督域适应研究的问题是如何把源域上训练的模型结合无lable的目标域数据使得该模型在目标域上有良好的表现.之前的研究都有个假设,就是数据来自哪个域是 ...

  5. 计算机电子书 2019 BiliDrive 备份

    下载方式 pip install BiliDriveEx bdex download <link> 链接 文档 链接 传智播客轻松搞定系列 C.C++.Linux.设计模式.7z (33. ...

  6. 2019年度【计算机视觉&机器学习&人工智能】国际重要会议汇总

    简介 每年全世界都会举办很多计算机视觉(Computer Vision,CV). 机器学习(Machine Learning,ML).人工智能(Artificial Intelligence ,AI) ...

  7. 因果推理的春天-实用HTE(Heterogeneous Treatment Effects)论文github收藏

    一直以来机器学习希望解决的一个问题就是'what if',也就是决策指导: 如果我给用户发优惠券用户会留下来么? 如果患者服了这个药血压会降低么? 如果APP增加这个功能会增加用户的使用时长么? 如果 ...

  8. zz2019年主动学习有哪些进展?答案在这三篇论文里

    2019年主动学习有哪些进展?答案在这三篇论文里 目前推广应用的机器学习方法或模型主要解决分类问题,即给定一组数据(文本.图像.视频等),判断数据类别或将同类数据归类等,训练过程依赖于已标注类别的训练 ...

  9. zz【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐

    [清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...

随机推荐

  1. MySql 5.7关键字和保留字-附表

    现在使用navicat图形界面或者Hibernate做映射生成表的时候,渐渐的会忽视掉关键字这个问题,而后续也会不断的产生错误提示,一遍遍的查询代码无果,甚至开始怀疑人生,但是其实很多情况下只是使用了 ...

  2. docker数据卷挂载

    docker数据卷挂载笔记 我们的服务运行时必不可少的会产生一些日志,或是我们需要把容器内的数据进行备份,甚至多个容器之间进行数据共享,这必然涉及容器的数据管理操作. 容器中管理数据主要有两种方式: ...

  3. vue video.js使用

    插件github地址:https://github.com/videojs/video.js 这边做一个切换视频vue url的解决记录 this.$nextTick(() => { let u ...

  4. 如何使用前端分页框架bootstrap paginator

    前端分页框架bootstrap paginator用于web前端页面快速实现美观大方的翻页功能.在实现交互良好的页面翻页功能时,往往还需要配合使用后端分页框架pagehelper.pagehelper ...

  5. poj 1543 Perfect Cubes (暴搜)

    Perfect Cubes Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 15302   Accepted: 7936 De ...

  6. C++ 临时对象的生存周期

    C++ 临时对象的生存周期是一个不小的坑,参考 C++ standard 第十二章第二节,总结其规则如下: 基本原则:临时变量生存到其所在的完整表达式执行完毕之后(若作为函数参数,则以函数所在的完整表 ...

  7. 神奇的AI:将静态图片转为3D动图

    近日我们从外媒获得消息,位于莫斯科的三星AI中心和Skolkovo科学技术研究所的研究人员发表了一篇新论文,详细介绍了从单个静止人像照片生成3D动画人像的创建.与此前能够生成照片般逼真肖像的人工智能A ...

  8. Qualcomm_Mobile_OpenCL.pdf 翻译-3

    3 在骁龙上使用OpenCL 在今天安卓操作系统和IOT(Internet of Things)市场上,骁龙是性能最强的也是最被广泛使用的芯片.骁龙的手机平台将最好的组件组合在一起放到了单个芯片上,这 ...

  9. 【学习】024 springCloud

    单点系统架构 传统项目架构 传统项目分为三层架构,将业务逻辑层.数据库访问层.控制层放入在一个项目中. 优点:适合于个人或者小团队开发,不适合大团队开发. 分布式项目架构 根据业务需求进行拆分成N个子 ...

  10. Java 集合类库

    java类库的基本结构 Iterable public interface Iterable<T> 实现这个接口允许对象成为 "foreach" 语句的目标. 也就是说 ...