大数据的傲慢与偏见— 读后心得

数据模型研究者必看的书

书本简介

书名:大数据的傲慢与偏见

原书名:Weapons of Math Destruction

作者:Cathy O'Neil

译者:许瑞宋

出版社:大写出版

 

内容简介

作者自哈佛大学取得数学博士学位,曾在金融界及新创企业担任数据科学家,他以此书警告世界:「数据不缺推崇者,但我不是。甚至我称它是这个世代的『数学毁灭性武器』」。


为什么模型会是「数学毁灭性武器」?

这里的模型不仅限于由机器学习产生出来的模型,还包括各样的公式以及演算法,甚至包含一个人决定等等晚餐要吃什么的「思路模型」

在这资讯量爆炸且传递与处理皆快速的时代,各大企业及政府可以轻易地收集到关于人们的各种资料,包括学生的升学考试成绩、每个人的收支状况、棒球队球员的打击率、通讯软体用户的心情……等。模型的使用可以提高人们处理事务的效率。例如自动履历筛选系统可以为人资人员从一千份履历中剔除掉五百份不适任的履历。但自动履历筛选系统的机制往往使得穷人、被歧视的族群难以找到工作,甚至找不到工作。

并非所有的模型都是「数学毁灭性武器」,例如以机器学习的方式判断恶性肿瘤,或是依场合决定穿着的思路,都不是「数学毁灭性武器」。作者认为模型要成为「数学毁灭性武器」有三个要素:

  1. 不透明
  2. 大规模应用
  3. 会造成伤害

接下来是作者举出的实例,穿插我个人的看法,没有特别说明的话,例子即是发生在美国。


模型中的偏见产生不公平

模型的产生大多数皆由大量的资料,或是现有的公式组成。资料与公式的正确性就相当重要,如果资料或是公式不正确,模型也必定不正确。在注意资料正确性的同时,常常忽略资料中往往含有历史性的偏见。

作者提到了几个例子,例如上段提到的自动履历筛选系统。这类系统通常以现在正在任职的员工表现,或是过去面试官筛选的结果作为数据来源,但现在的社会状态往往是歧视与偏见的结果,造成某些性别或种族有更高的机率被系统剔除。

犯罪预测模型的重要数据来源之一,是过去发生犯罪资料,此类模型的预测结果常落在过去常发生犯罪事件的地区,因此警方也会针对该地区加强执法。乍看之下没什么问题,但过去常犯罪的地区通常是较贫困的地区(金融型犯罪并非通过一般训练的警察有办法执法的,也较容易被忽略),一但加强执法,会多发现一些携带毒品的毒品使用者,或是非法拥有枪枝的人,此结果会回馈到系统中,让警方觉得此系统有效,又更加强针对贫困地区执法。

美国司法有使用再犯预测模型,来评估罪犯的再犯机率,有些州的法官会参考模型提供的机率来决定罪犯的刑期。但有力的研究指出,在狱中的时间越久,再犯的机率越高。因此模型产生了恶性的回馈,让原先被歧视或是犯罪率较高的族群,面临更高的惩罚,这样的惩罚是瞄准了整个族群,而不是单一个人。

有些人会疑问,即便不依赖模型,人类本来就有偏见。作者表示,人类的偏见不是稳定的,同时影响的范围也小,今天一位受试者被面试官歧视,而不录取,他依然有机会在别的企业遇到不歧视的面试官。模型的大规模应用与此不同,被模型歧视的面试者到了下一间企业,依然会被歧视。


提高效率与准确性,却失去正义

在这资本主义当道的世界,一些大型的服务业企业开始使用人潮预测系统,以天气、车流量、行人数量等等预测未来的顾客数,以避免服务人员上班空闲没事做,或是客人太多,服务员却不够的情况,进而减少人事支出。为了准确性与效率,不可以让模型预测过长时间以后的顾客状况,导致服务员常常在数天前被告知班表变动,而必须仓促的安排托儿、交通工具,或是调整个人规划,而这些人大多都是只能领基本时薪的低受薪阶级。

在保险的制度上,为了营利目的,保险业者会收集各式各样的数据,将原先由族群划分保费的方式(例如年轻男性的汽车保险费比其他族群高),进一步推进到个人,由一个人各式各样的资料,如由记录器收集的驾驶状态,甚至是一些替代指标,如财务状况、消费状况等,来决定一个人的保费。如此一来就完全失去包险原先由群体为群体中个体分担风险的目的,变成每个投保人,只是单纯为自己未来可能发生的灾难支付「预付款」。

随着模型可以处理更精准的预测,从预测某班次的顾客人数,到预测某小时的顾客人数;从预测群体的风险,到预测个人的风险,正义被侵害的程度就越大。这类侵害中大多数的受害者都是社会底层的人,但也有群不人都受害的状况,像是保险制度,所有人都是受害者。与这一节相比,下一节所提的影响更广泛。


大规模的模型应用影响民主

随着网路的普及,以及网路中心化,各大资料收集企业,例如Google、Facebook,大规模地使用模型,为使用者筛去其不感兴趣的资讯,也为使用者筛选出其有兴趣的广告。看似产生了双赢的局面,但实际上有很大的隐忧。

Google和Facebook皆做过操作选情的实验。Facebook曾在某个选举日提供使用者在板上表示自己已经完成投票,并将使用者分成两群,一群会看到朋友发文表示已投票,另一群则不会看到。结果显示看得到朋友的已投票讯息的那群使用者,有较高的投票率。Google则是在选举前,筛选网页搜寻的结果,让使用者只看到某个政治倾向的文章,结果影响了约20%的选票。

藉由拥有庞大的使用者资料,上面的操作可以做到相当「客制化」。例如我在乎机车路权的议题,有心者就可以针对我在乎的议题进行操作,来改变我的政治偏好。当然Google和Facebook并不会做这样的事,但其他人或企业依然可以透过精准投放广告,来达到操作民意的目标,且精准度远超过传统媒体播送。

结语

除了我上述提到的例子,书中还有非常多模型成为「数学毁灭性武器」的案例。依照现在资讯科技的发展,似乎这一切都无法避免,人类终将被自己产生的模型毁灭。作者认为还不到这么悲观,人类还是可以藉由社会的力量阻止灾难继续扩大。首先透过政府立法,严格限制模型的运作方式,再来要求模型创造者自我约束,将道德意识放入模型中。甚至应该要像面对复制人议题一样,建立国际皆应遵守的伦理,确保数学模型不会成为毁灭性武器。

最后,我认为所有运用数据、数学建立模型的人,包括资料探勘领域、机器学习领域,甚至是社交软体业、金融业,都应该阅读这本书。这本书有如当头棒喝,让我们意识到模型可能带来灾难,而唯有意识到自己正在产生的模型可能成为武器,才能着手去避免

Big Data Hubris:"大数据傲慢"问题的更多相关文章

  1. Data - 关于大数据

    历史与趋势 大数据的前世今生:诞生.发展.未来? 如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析 10大行业大数据应用痛点及解决策略 大数据凉了?不,流式计算浪潮才刚刚开始 概念与定义 关 ...

  2. 大数据 Big Data howto

    The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collabo ...

  3. Data - 大数据分析学习之路

    一.大数据分析的五个基本方面 可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非 ...

  4. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

    时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的 ...

  5. 大数据 Hadoop,Spark和Storm

    大数据(Big Data)   大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复 ...

  6. 从大数据到快数据 数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!

    8月17日,以“数据驱动,智创未来”为主题的2019 CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)全球启动仪式,在北京大学正 ...

  7. 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析

    1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...

  8. Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

    牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践 我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践 ...

  9. 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

随机推荐

  1. Nginx 反向代理功能-实现Nginx tcp负载均衡

    Nginx 反向代理功能-实现Nginx tcp负载均衡 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.

  2. 03、磁盘管理+swap分区创建+磁盘配额+自动挂载

    磁盘管理 分区标识 一般用4位标识,前两位,磁盘类型,第3位,磁盘编号,第4位,分区编号 如: /dev/sda1     sd  磁盘类型    a  磁盘编号   1  分区编号 [root@s1 ...

  3. springboot easypoi 报错The bean 'beanNameViewResolver', defined in class path resource [cn/afterturn/e

    事故现场: The bean 'beanNameViewResolver', defined in class path resource [cn/afterturn/easypoi/configur ...

  4. Ubuntu16.04下Python2:pip安装opendr库

    在Ubuntu16.04/Python2环境安装opendr遇到了问题,并且报错不清楚. 使用dis_to_free的方法很好地解决问题. sudo apt install libosmesa6-de ...

  5. IDEA中常用的一些设置

    一.idea常用设置1.报错级别    idea默认不会像eclipse一样需要ctrl+s进行保存,并且在保存时会进行编译(可以在File>Settings>Build,Executio ...

  6. Margin和padding失效

    太久不写原生果然不行,Margin和padding对div有效,对span失效,原因就不解释了(元素性质,块状之类的)

  7. 1. Spring Cloud Greenwich SR2 概览

    Spring Cloud provides tools for developers to quickly build some of the common patterns in distribut ...

  8. 简要说明盒子模型和flex布局

    盒子模型:可以看做是一个盒子,包括外边距.边框.内边距.实际内容. flex布局:弹性布局,灵活性好. 当给元素设置display:flex时,它就是flex容器,它的所有子元素自动成为容器成员,称为 ...

  9. pacemaker和keepalived的区别

    1.pacemaker Pacemaker 是一款开源的高可用资源管理软件,适合大集群或者小集群. Pacemaker 由Novell支持,SLES HAE就是用Pacemaker来管理集群,并且Pa ...

  10. Linux中文件权限查看和修改

    权限定义 linux文件权限分为:r读权限(4).w写权限(2).x执行权限(1) linux权限对象分为:拥有者.组用户.其他用户 权限修改: chown user:group /usr/local ...