大数据的傲慢与偏见— 读后心得

数据模型研究者必看的书

原文链接：

https://medium.com/@iven00000000/%E5%A4%A7%E6%95%B8%E6%93%9A%E7%9A%84%E5%82%B2%E6%85%A2%E8%88%87%E5%81%8F%E8%A6%8B-%E8%AE%80%E5%BE%8C%E5%BF%83%E5%BE%97-391e155688ec

书本简介

书名：大数据的傲慢与偏见

原书名：Weapons of Math Destruction

作者：Cathy O'Neil

译者：许瑞宋

出版社：大写出版

内容简介

作者自哈佛大学取得数学博士学位，曾在金融界及新创企业担任数据科学家，他以此书警告世界：「数据不缺推崇者，但我不是。甚至我称它是这个世代的『数学毁灭性武器』」。

为什么模型会是「数学毁灭性武器」？

这里的模型不仅限于由机器学习产生出来的模型，还包括各样的公式以及演算法，甚至包含一个人决定等等晚餐要吃什么的「思路模型」

在这资讯量爆炸且传递与处理皆快速的时代，各大企业及政府可以轻易地收集到关于人们的各种资料，包括学生的升学考试成绩、每个人的收支状况、棒球队球员的打击率、通讯软体用户的心情……等。模型的使用可以提高人们处理事务的效率。例如自动履历筛选系统可以为人资人员从一千份履历中剔除掉五百份不适任的履历。但自动履历筛选系统的机制往往使得穷人、被歧视的族群难以找到工作，甚至找不到工作。

并非所有的模型都是「数学毁灭性武器」，例如以机器学习的方式判断恶性肿瘤，或是依场合决定穿着的思路，都不是「数学毁灭性武器」。作者认为模型要成为「数学毁灭性武器」有三个要素：

不透明
大规模应用
会造成伤害

接下来是作者举出的实例，穿插我个人的看法，没有特别说明的话，例子即是发生在美国。

模型中的偏见产生不公平

模型的产生大多数皆由大量的资料，或是现有的公式组成。资料与公式的正确性就相当重要，如果资料或是公式不正确，模型也必定不正确。在注意资料正确性的同时，常常忽略资料中往往含有历史性的偏见。

作者提到了几个例子，例如上段提到的自动履历筛选系统。这类系统通常以现在正在任职的员工表现，或是过去面试官筛选的结果作为数据来源，但现在的社会状态往往是歧视与偏见的结果，造成某些性别或种族有更高的机率被系统剔除。

犯罪预测模型的重要数据来源之一，是过去发生犯罪资料，此类模型的预测结果常落在过去常发生犯罪事件的地区，因此警方也会针对该地区加强执法。乍看之下没什么问题，但过去常犯罪的地区通常是较贫困的地区（金融型犯罪并非通过一般训练的警察有办法执法的，也较容易被忽略），一但加强执法，会多发现一些携带毒品的毒品使用者，或是非法拥有枪枝的人，此结果会回馈到系统中，让警方觉得此系统有效，又更加强针对贫困地区执法。

美国司法有使用再犯预测模型，来评估罪犯的再犯机率，有些州的法官会参考模型提供的机率来决定罪犯的刑期。但有力的研究指出，在狱中的时间越久，再犯的机率越高。因此模型产生了恶性的回馈，让原先被歧视或是犯罪率较高的族群，面临更高的惩罚，这样的惩罚是瞄准了整个族群，而不是单一个人。

有些人会疑问，即便不依赖模型，人类本来就有偏见。作者表示，人类的偏见不是稳定的，同时影响的范围也小，今天一位受试者被面试官歧视，而不录取，他依然有机会在别的企业遇到不歧视的面试官。模型的大规模应用与此不同，被模型歧视的面试者到了下一间企业，依然会被歧视。

提高效率与准确性，却失去正义

在这资本主义当道的世界，一些大型的服务业企业开始使用人潮预测系统，以天气、车流量、行人数量等等预测未来的顾客数，以避免服务人员上班空闲没事做，或是客人太多，服务员却不够的情况，进而减少人事支出。为了准确性与效率，不可以让模型预测过长时间以后的顾客状况，导致服务员常常在数天前被告知班表变动，而必须仓促的安排托儿、交通工具，或是调整个人规划，而这些人大多都是只能领基本时薪的低受薪阶级。

在保险的制度上，为了营利目的，保险业者会收集各式各样的数据，将原先由族群划分保费的方式（例如年轻男性的汽车保险费比其他族群高），进一步推进到个人，由一个人各式各样的资料，如由记录器收集的驾驶状态，甚至是一些替代指标，如财务状况、消费状况等，来决定一个人的保费。如此一来就完全失去包险原先由群体为群体中个体分担风险的目的，变成每个投保人，只是单纯为自己未来可能发生的灾难支付「预付款」。

随着模型可以处理更精准的预测，从预测某班次的顾客人数，到预测某小时的顾客人数；从预测群体的风险，到预测个人的风险，正义被侵害的程度就越大。这类侵害中大多数的受害者都是社会底层的人，但也有群不人都受害的状况，像是保险制度，所有人都是受害者。与这一节相比，下一节所提的影响更广泛。

大规模的模型应用影响民主

随着网路的普及，以及网路中心化，各大资料收集企业，例如Google、Facebook，大规模地使用模型，为使用者筛去其不感兴趣的资讯，也为使用者筛选出其有兴趣的广告。看似产生了双赢的局面，但实际上有很大的隐忧。

Google和Facebook皆做过操作选情的实验。Facebook曾在某个选举日提供使用者在板上表示自己已经完成投票，并将使用者分成两群，一群会看到朋友发文表示已投票，另一群则不会看到。结果显示看得到朋友的已投票讯息的那群使用者，有较高的投票率。Google则是在选举前，筛选网页搜寻的结果，让使用者只看到某个政治倾向的文章，结果影响了约20%的选票。

藉由拥有庞大的使用者资料，上面的操作可以做到相当「客制化」。例如我在乎机车路权的议题，有心者就可以针对我在乎的议题进行操作，来改变我的政治偏好。当然Google和Facebook并不会做这样的事，但其他人或企业依然可以透过精准投放广告，来达到操作民意的目标，且精准度远超过传统媒体播送。

结语

除了我上述提到的例子，书中还有非常多模型成为「数学毁灭性武器」的案例。依照现在资讯科技的发展，似乎这一切都无法避免，人类终将被自己产生的模型毁灭。作者认为还不到这么悲观，人类还是可以藉由社会的力量阻止灾难继续扩大。首先透过政府立法，严格限制模型的运作方式，再来要求模型创造者自我约束，将道德意识放入模型中。甚至应该要像面对复制人议题一样，建立国际皆应遵守的伦理，确保数学模型不会成为毁灭性武器。

最后，我认为所有运用数据、数学建立模型的人，包括资料探勘领域、机器学习领域，甚至是社交软体业、金融业，都应该阅读这本书。这本书有如当头棒喝，让我们意识到模型可能带来灾难，而唯有意识到自己正在产生的模型可能成为武器，才能着手去避免

Big Data Hubris："大数据傲慢"问题的更多相关文章

Data - 关于大数据
历史与趋势大数据的前世今生:诞生.发展.未来? 如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析 10大行业大数据应用痛点及解决策略大数据凉了?不,流式计算浪潮才刚刚开始概念与定义关 ...
大数据 Big Data howto
The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collabo ...
Data - 大数据分析学习之路
一.大数据分析的五个基本方面可视化分析大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非 ...
淘宝杨志丰：OceanBase--淘宝结构化大数据解决之道
时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的 ...
大数据 Hadoop，Spark和Storm
大数据(Big Data) 大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复 ...
从大数据到快数据数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!
8月17日,以“数据驱动,智创未来”为主题的2019 CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)全球启动仪式,在北京大学正 ...
新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...
Data.gov.uk电子政务云，牛津大学NIE金融大数据实验室王宁：数据治理的现状和实践
牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践 ...
浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
作者王枫发布于2014年2月19日综述随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

随机推荐

Codeforces J. Sagheer and Nubian Market（二分枚举）
题目描述: Sagheer and Nubian Market time limit per test 2 seconds memory limit per test 256 megabytes in ...
AjAX2 异步通信异常处理
<!DOCTYPE html> <html lang="en"> <head> <title>xmlhttprequest ajax ...
Elasticsearch 报错：Fielddata is disabled on text fields by default. Set `fielddata=true` on [`your_field_name`] in order to load fielddata in memory by uninverting the inverted index.
Elasticsearch 报错: Fielddata is disabled on text fields by default. Set `fielddata=true` on [`your_fi ...
.Net反射-TypeDescriptor
.Net中提供了两种方式访问类型的元数据:System.Reflection命名空间中提供的反射API和TypeDescriptor类.反射适用于所有类型的常规机制,它为类型返回的信息是不可扩展的,因 ...
CF888G XOR-MST trie，贪心
CF888G XOR-MST 链接 CF888G 思路 trie上贪心,先左右两边连边,再用一条边的代价连起左右两颗树.因为内部的边一定比跨两棵树的边权笑,显然是对的. 代码自己瞎yy的.启发式合并 ...
ZROI 暑期高端峰会 A班 Day4 生成函数
一般生成函数很普及组,不讲了生成函数是一种形式幂级数,也就是我们只关心系数,不关心未知数具体的值. 比如 \(\sum\limits_{i\ge 0}x^i=\frac{1}{1-x}\).虽然只 ...
数据结构与算法系列——排序(4)_Shell希尔排序
1. 工作原理(定义) 希尔排序,也称递减增量排序算法,是插入排序的一种更高效的改进版本.但希尔排序是非稳定排序算法. 希尔排序的基本思想是:先将整个待排序的记录序列分割成为若干子序列分别进行直接插入 ...
Linux下的串口编程（转）
https://blog.csdn.net/tigerjibo/article/details/6179291 #include<stdio.h> /*标准输入输出定义*/ #includ ...
.net core 运行不需命令行
1.问题情景: 需要保证已安装.net core SDK,并且命令提示符下运行“dotnet --version”,有反应. 如果之前运行良好,现在却不行了,查看安装程序中存在.net core SD ...
【RabbitMQ学习之二】RabbitMQ四种交换机模式应用
环境 win7 rabbitmq-server-3.7.17 Erlang 22.1 一.概念1.队列队列用于临时存储消息和转发消息.队列类型有两种,即时队列和延时队列. 即时队列:队列中的消息会被立 ...

Big Data Hubris："大数据傲慢"问题