[DeeplearningAI笔记]序列模型2.10词嵌入除偏
5.2自然语言处理
觉得有用的话,欢迎一起讨论相互学习~Follow Me
2.10词嵌入除偏 Debiasing word embeddings
Bolukbasi T, Chang K W, Zou J, et al. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings[J]. 2016.
- 机器学习和人工智能算法正渐渐被信任用以辅助或是制定极其重要的决策,所以要确保人工智能系统不受非预期形式的偏见影响--比如说 性别歧视,种族歧视 本节将介绍在词嵌入技术中减少或消除这些形式的偏见的方法。
The problem of bias in word embeddings 词嵌入中的偏见问题
示例 当使用词嵌入系统做语言推断时:假如Man对应Woman,则King对应Queen.这是正确而显而易见的,但是当对系统输入Man对应Computer Programmer(程序员)时,系统对应的Woman显示为Homemaker(家庭主妇)--这涉及到 性别歧视 的问题。当Father对应Doctor时,Mother对应Nurse--这也是不对的。
因此,根据训练模型时使用的文本,词嵌入能够反映出性别,种族,年龄,性取向等其他方面的偏见。 由于机器学习人工智能正对人们的生活发挥着越来越重要的作用 所以修改这种 误差 至关重要。

Addressing bias in word embeddings
- 辨别出我们想要减少或想要消除的特定偏见的趋势,此处以 性别歧视 作为研究示例
- 首先将 性别相反的词嵌入向量的差求平均 即: \(Average((e_{he}-e_{she})+(e_{male}-e_{female})+(e_{boy}-e_{girl})+...)\) 得以求出一个 偏见趋势 --这个偏见趋势有可能是1维的也可能是更高维度的向量。而其余的维度则可以被认为是 无偏见趋势
- Note 在原论文中相对于此处使用的求平均值的算法,论文中使用的是更加复杂的算法--SUV奇异值分解
- 中和步(Neutralize) 对于那些定义不确切的词可以适当的处理以避免偏见,有些词语本质上就和性别有关 mother 和 father ,然而有些词汇例如 doctor 和 babysitter 在性别方向是中立的。 对于这些定义中立的词语,我们选择在 无偏见趋势 的轴方向上进行处理,以减少在 偏见趋势 方向上的差距。

- 均衡步(Equalize pairs) 对于 偏见词对 例如 father 和 mather , boy 和 girl , 希望 偏见词对 对 babysitter 和 doctor 类型的词汇的影响相等,即将 偏见词对 向 无偏见趋势 相靠拢,使到 babysitter 这种中性词的距离相等。

- Note 怎样判断一个词汇是中性的, 类似于 beard(胡子) 这个词应该更靠近男性(male)一些。
- 论文作者 通过训练一个分类器来尝试解决哪些词是有明确定义的,哪些词是性别确定的,哪些词不是。
- Note 在实际使用中,需要平衡的 偏见词对 数其实并不多。
[DeeplearningAI笔记]序列模型2.10词嵌入除偏的更多相关文章
- [DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding
5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示词汇 ...
- [DeeplearningAI笔记]序列模型2.3-2.5余弦相似度/嵌入矩阵/学习词嵌入
5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3词嵌入的特性 properties of word embedding Mikolov T, Yih W T, Zwe ...
- [DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述 对于音频片段(audio clip)x ,y生成文本 ...
- [DeeplearningAI笔记]序列模型2.8 GloVe词向量
5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.8 GloVe word vectors GloVe词向量 Pennington J, Socher R, Mannin ...
- [DeeplearningAI笔记]序列模型3.3集束搜索
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一 ...
- [DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...
- [DeeplearningAI笔记]序列模型3.7-3.8注意力模型
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...
- [DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决 ...
- [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
随机推荐
- CQOI2018 游记 再见OI,既是反思,也是祝福
哎,怎么说呢? 时运不齐,命途多舛? 从头开始说吧. 今年的NOIP大家考的都不尽人意,每个人都有或多或少的失误,全部都几十分几十分地丢.最后大家剩下的觉得可能冲击一下省队的人一共只有7个. 伙伴们变 ...
- 作业要求20181016-3 Alpha阶段第1周/共2周 Scrum立会报告+燃尽图 01
此次作业要求参见https://edu.cnblogs.com/campus/nenu/2018fall/homework/2246 Scrum master:范洪达 一.小组介绍 组长:王一可 组员 ...
- Java 学习笔记 ------第三章 基础语法
本章学习目标: 认识类型与变量 学习运算符的基本使用 了解类型转换细节 运用基本流程语法 一.类型(基本类型) 所谓基本类型,就是在使用时,得考虑一下数据用多少内存长度存比较经济,利用程序语法告诉JV ...
- 软工实践-Alpha 冲刺 (4/10)
队名:起床一起肝活队 组长博客:博客链接 作业博客:班级博客本次作业的链接 组员情况 组员1(队长):白晨曦 过去两天完成了哪些任务 描述: 很胖,刚学,照猫画虎做了登录与注册界面. 展示GitHub ...
- ZOJ 1842 Prime Distance(素数筛选法2次使用)
Prime Distance Time Limit: 2 Seconds Memory Limit: 65536 KB The branch of mathematics called nu ...
- (一)Tensorflow安装
主要包括下面两个指令: $ sudo apt-get install python-pip python-dev $ sudo pip install --upgrade https://storag ...
- oracle和DB2的差异
1.简介 当今IT的环境正经历着剧烈的变化,依靠单一的关系型数据库管理系统(RDBMS)管理数据的公司开始逐渐减少.分析家的报告指出 ,今天超过90%的公司都拥有不只一种RDBMS.在现在紧张的经济情 ...
- ltnmp 3.0 发布,PHP 开发环境一键安装包
PHP 开发环境一键安装包, 有个叫lnmp.这个ltnmp看起来更新比较多,开发比较频繁,包括的组件更多. 安装和使用教程:http://www.moqifei.com/ltnmp 标记一下.
- (一)MySQL基础篇
1.mysql简介 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库. 主流的数据库有:sqlserver,mysql,Oracle.SQLite.Access.MS SQL Se ...
- Alpha - Postmortem
Alpha - Postmortem NewTeam 2017/11/18 目录 设想和目标 计划 资源 变更管理 设计/实现 测试/发布 团队角色.管理.合作 总结 设想和目标 返回目录 1. 软件 ...