原文地址:

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9062359768651479602%22%7D&n_type=-1&p_from=-1

========================================

为了获得有关暴力、仇恨言论和性虐待的例子以训练AI,OpenAI从2021年11月开始向肯尼亚的一家外包公司发送了数万条文本。其中大部分文字似乎都是从互联网最黑暗的角落里挖出来的,一些详细描述了性虐待、谋杀、异常性行为等情况。

·一名参与文本标签项目的员工表示:“对我们来说,这是一种养家糊口的方式。不看有害内容就无法养家糊口。”

人工智能(AI)文本生成工具ChatGPT已经引发全球热烈讨论,除了本身的准确性和偏见问题之外,其背后的道德问题也引起关注。1月18日,美国《时代》杂志发布调查报道称,为了降低ChatGPT的危害性,其开发公司OpenAI以每小时不到2美元的价格雇佣肯尼亚工人打标签。

这项工作对OpenAI至关重要。ChatGPT所依赖的GPT大型语言模型虽然已展示出令人印象深刻的文本能力,但目前的GPT-3还存在很多问题,总是脱口而出暴力、性别歧视和种族主义言论。这是因为AI接受了从互联网上抓取的数千亿个单词的训练,而庞大的训练数据集包含有害言论,会被人工智能学习。为了建立安全系统以控制这种危害,OpenAI借鉴了Facebook等社交媒体的做法。

实现这种检测的方式很简单:给人工智能提供有关暴力、仇恨言论和性虐待的例子,检测器就可以学会检测言论危害。将检测器内置到ChatGPT中,就可以在仇恨言论到达用户之前将其过滤掉,还可以帮助从人工智能的训练数据集中清除有害文本。这一切,是通过肯尼亚工人阅读大量仇恨言论并打上数据标签实现的,其中一些员工表示自己已经出现心理问题。

这些数据标签工人的工作条件揭示了科技图景中的黑暗部分:虽然人工智能很有魅力,但它往往依赖于隐藏的人力劳动,具有破坏性和剥削性。

 

 

OpenAI的人工智能Dall-E 2生成的一幅画,主题是:“电脑前,非洲工人无穷无尽的工作。”互联网最黑暗的角落ChatGPT聊天机器人于去年11月发布,被誉为2022年最令人印象深刻的技术创新之一。这个强大的AI聊天机器人几乎可以生成任何主题的文本,从重写莎士比亚十四行诗,到用5岁孩子都能理解的语言描述复杂数学定理。一周之内,它的用户就超过了100万。今年年初,有媒体报道OpenAI正与投资者进行谈判,以筹集290亿美元的投资,其中包括微软的100亿美元潜在投资。这将使OpenAI成为世界上最有价值的人工智能公司之一。

《时代》的调查报道称,为了获得有关暴力、仇恨言论和性虐待的例子以训练AI,OpenAI从2021年11月开始向肯尼亚的一家外包公司发送了数万条文本。其中大部分文字似乎都是从互联网最黑暗的角落里挖出来的,一些详细描述了性虐待、谋杀、异常性行为等情况。

OpenAI在肯尼亚的外包合作伙伴是Sama公司,这家总部位于旧金山的公司雇佣了肯尼亚、乌干达和印度的工人,为谷歌、Meta和微软等硅谷客户标注数据。Sama标榜自己是一家“有道德的人工智能公司”,并声称已经帮助5万多人摆脱了贫困。

OpenAI的发言人表示:“我们的使命是确保通用人工智能造福全人类,我们努力建立安全有用的人工智能系统,限制偏见和有害内容。分类和过滤有害文本和图像是必要的一步,可以最大限度地减少训练数据中包含的暴力和性内容,并创建可以检测有害内容的工具。”

但Sama公司的肯尼亚工人让人们得以一窥人工智能行业中鲜为人知的状况。该公司代表OpenAI雇佣的数据标签员的实际工资在每小时1.32美元到2美元之间,具体取决于资历和表现。这些工人处于边缘地带,尽管他们的工作为数十亿美元的产业做出了贡献。

OpenAI与Sama签署了3份总价值约20万美元的合同。大约30多名工作人员被分成3个小组,每个小组专注于一个主题。他们每9个小时要阅读和标注150到250段文字。这些片段的范围从100个单词到1000多个单词不等。许多员工表示,这份工作给他们留下了心理创伤。

一位Sama的工作人员表示,在阅读了大量仇恨言论后,他经常出现幻觉。“那是一种折磨。”他说。

Sama的发言人在一份声明中表示,员工有权与“经过专业培训和持有执照的心理健康治疗师”进行个人和团体治疗。这些治疗师随时都可以联系到。

虽然工人有权参加“健康”咨询师的课程,但由于对工作效率的要求很高,部分员工表示这些课程毫无帮助。还有一位员工表示,他要求以一对一的方式与咨询师会面的请求被Sama管理层一再拒绝。

合同规定,OpenAI将为这项工作向Sama支付每小时12.5美元的报酬,这是该项目Sama员工每小时收入的6到9倍。据3名Sama员工透露,最初级的数据标签人员基本工资为每月2.1万肯尼亚先令(合170美元)。

由于工作性质明确,如果达到准确性和速度等关键绩效指标,他们还能获得70美元的奖金。

质量分析师是更资深的标签师,他们的工作是检查代理商的工作,如果他们达到了所有的目标,每小时可以拿2美元。

但对于员工的言论,Sama的发言人在一份声明中反驳道,工人们被要求在每9小时的工作中标注70段文字,而不是250段,工人们的税后工资为每小时1.46美元到3.74美元。该发言人补充说:“12.5美元的项目费率涵盖了所有成本,如基础设施费用,以及工人、专职质量保证分析师和团队负责人的工资和福利。”

OpenAI的发言人在一份声明中也表示:“我们非常重视员工和承包商的心理健康。员工可以选择不做任何工作而不受惩罚,接触露骨的内容是有限制的,敏感信息将由经过专门培训的员工处理。”

 

OpenAI的人工智能Dall-E 2生成的一幅画,主题是:“电脑前,非洲工人无穷无尽的工作。”互联网最黑暗的角落ChatGPT聊天机器人于去年11月发布,被誉为2022年最令人印象深刻的技术创新之一。这个强大的AI聊天机器人几乎可以生成任何主题的文本,从重写莎士比亚十四行诗,到用5岁孩子都能理解的语言描述复杂数学定理。一周之内,它的用户就超过了100万。今年年初,有媒体报道OpenAI正与投资者进行谈判,以筹集290亿美元的投资,其中包括微软的100亿美元潜在投资。这将使OpenAI成为世界上最有价值的人工智能公司之一。

《时代》的调查报道称,为了获得有关暴力、仇恨言论和性虐待的例子以训练AI,OpenAI从2021年11月开始向肯尼亚的一家外包公司发送了数万条文本。其中大部分文字似乎都是从互联网最黑暗的角落里挖出来的,一些详细描述了性虐待、谋杀、异常性行为等情况。

OpenAI在肯尼亚的外包合作伙伴是Sama公司,这家总部位于旧金山的公司雇佣了肯尼亚、乌干达和印度的工人,为谷歌、Meta和微软等硅谷客户标注数据。Sama标榜自己是一家“有道德的人工智能公司”,并声称已经帮助5万多人摆脱了贫困。

OpenAI的发言人表示:“我们的使命是确保通用人工智能造福全人类,我们努力建立安全有用的人工智能系统,限制偏见和有害内容。分类和过滤有害文本和图像是必要的一步,可以最大限度地减少训练数据中包含的暴力和性内容,并创建可以检测有害内容的工具。”

但Sama公司的肯尼亚工人让人们得以一窥人工智能行业中鲜为人知的状况。该公司代表OpenAI雇佣的数据标签员的实际工资在每小时1.32美元到2美元之间,具体取决于资历和表现。这些工人处于边缘地带,尽管他们的工作为数十亿美元的产业做出了贡献。

OpenAI与Sama签署了3份总价值约20万美元的合同。大约30多名工作人员被分成3个小组,每个小组专注于一个主题。他们每9个小时要阅读和标注150到250段文字。这些片段的范围从100个单词到1000多个单词不等。许多员工表示,这份工作给他们留下了心理创伤。

一位Sama的工作人员表示,在阅读了大量仇恨言论后,他经常出现幻觉。“那是一种折磨。”他说。

Sama的发言人在一份声明中表示,员工有权与“经过专业培训和持有执照的心理健康治疗师”进行个人和团体治疗。这些治疗师随时都可以联系到。

虽然工人有权参加“健康”咨询师的课程,但由于对工作效率的要求很高,部分员工表示这些课程毫无帮助。还有一位员工表示,他要求以一对一的方式与咨询师会面的请求被Sama管理层一再拒绝。

合同规定,OpenAI将为这项工作向Sama支付每小时12.5美元的报酬,这是该项目Sama员工每小时收入的6到9倍。据3名Sama员工透露,最初级的数据标签人员基本工资为每月2.1万肯尼亚先令(合170美元)。

由于工作性质明确,如果达到准确性和速度等关键绩效指标,他们还能获得70美元的奖金。

质量分析师是更资深的标签师,他们的工作是检查代理商的工作,如果他们达到了所有的目标,每小时可以拿2美元。

但对于员工的言论,Sama的发言人在一份声明中反驳道,工人们被要求在每9小时的工作中标注70段文字,而不是250段,工人们的税后工资为每小时1.46美元到3.74美元。该发言人补充说:“12.5美元的项目费率涵盖了所有成本,如基础设施费用,以及工人、专职质量保证分析师和团队负责人的工资和福利。”

OpenAI的发言人在一份声明中也表示:“我们非常重视员工和承包商的心理健康。员工可以选择不做任何工作而不受惩罚,接触露骨的内容是有限制的,敏感信息将由经过专门培训的员工处理。”

 
 

Sama公司在肯尼亚内罗毕的办公室。“不看有害内容就无法养家糊口”2022年2月,Sama和OpenAI的关系曾短暂加深,而后却分道扬镳。2月,Sama开始为OpenAI的另一个项目进行试点工作:收集性和暴力图像并交付给OpenAI。OpenAI发言人在一份声明中没有具体说明该公司向Sama寻求图像的目的,但表示标记有害图像是使其人工智能更安全的“必要步骤”。

但在后来的几周内,Sama取消了OpenAI的所有工作,比合同中约定的时间提前了8个月。这家外包公司在一份声明中表示,其为OpenAI收集图像的协议中不包括任何涉及非法内容的内容,直到相关工作开始后,OpenAI才发来“附加指示”,提到了“一些非法类别”。

“东非团队立即向我们的高管提出了担忧。”Sama表示,于是他们立即结束了图像分类试点,并取消了与OpenAI的所有剩余项目。

Sama终止与OpenAI合作的决定意味着Sama员工不再需要处理令人不安的文字和图像,但这也对他们的生计产生了重大影响。Sama的工作人员表示,在2022年2月底,他们被叫去与公司人力资源团队成员开会,在那里他们被告知Sama不想让员工再次接触这样的危险内容。

但Sama一名参与文本标签项目的员工表示:“对我们来说,这是一种养家糊口的方式。不看有害内容就无法养家糊口。”

在大约30多名员工中,大多数人被转移到其他工资较低的工作岗位,每月没有70美元的奖金,还有一些人甚至失去了工作。Sama在3月向OpenAI交付了最后一批标记数据,当时距离合同到期还有8个月。

Sama的员工表示,他们的经理给了他们另一个取消合同的理由。2月14日,《时代》发表了一篇题为《Facebook在非洲的血汗工厂内幕》的文章,调查详细说明了Sama如何为Facebook雇用内容审查员,他们的工作包括查看有关性虐待、暴力、谋杀的图像和视频,且时薪只有1.5美元。4名Sama员工表示,他们被告知,调查促使Sama公司决定结束与OpenAI的合作。

今年1月10日,Sama更进一步,宣布取消所有涉及敏感内容的剩余工作。该公司表示,将不再与Facebook续签价值390万美元的内容审核合同,这将导致内罗毕约200个工作岗位的流失。

该公司在一份声明中表示:“在与我们的全球团队进行了多次讨论后,Sama做出了战略决定,退出所有自然语言处理和内容审核工作,专注于计算机视觉数据注释解决方案。在过去的一年里,我们一直在与客户合作,过渡这些业务,并将于2023年3月完成退出。”

人工智能目前仍需要大量人工来标记数据。人工智能伦理学家安德鲁·斯特雷特(Andrew Strait)最近在推特上写道:“ChatGPT和其他人工智能并不神奇,它们依赖于大规模的人力供应链和数据抓取,其中大部分是未经同意就被使用的。这些都是严重的基础性问题,但我认为OpenAI不会解决这些问题。”

 
 
 
 
======================================================
 
 
 
 
 

【转载】AI的剥削:肯尼亚工人训练ChatGPT,看大量有害内容心理受伤——AI新时代下剥削的更多相关文章

  1. Notion AI:门槛更低的ChatGPT Plus

    [2023年3月27日]由于接口成本的问题,如今的大部分应用应该都只会建立在GPT-3/ChatGPT接口的基础上,所以想要体验GPT-4,还是得尊贵的ChatGPT Plus. 前段日子体验了Not ...

  2. AI零基础入门之人工智能开启新时代—下篇

    人工智能概述 人工智能的定义 · 人工智能是通过机器来模拟人类认识能力的一种科技能力 · 人工智能最核心的能力就是根据给定的输入做出判断或预测 · 思考:通过什么途径才能让机器具备这样的能力? · 举 ...

  3. Hugging Face 每周速递: 扩散模型课程完成中文翻译,有个据说可以教 ChatGPT 看图的模型开源了

    每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...

  4. 从Chat-GPT看爆火技术概念及医疗领域科技与应用场景

    作者:京东健康 陈刚 一.前言 最近OpenAI在官网上宣告了多模态大模型 GPT-4 的诞生,它可能是迄今为止最好的多模态模型. 主要更新内容如下: 1. 逻辑分析能力更加全面.「考试」能力大幅提升 ...

  5. 知物由学 | AI在Facebook清理有害内容上扮演了什么角色?

    "知物由学"是网易云易盾打造的一个品牌栏目,词语出自汉·王充<论衡·实知>.人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道."知物 ...

  6. [置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

    前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界.所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布 ...

  7. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  8. AI时代下普通小程序员的想法

    在我接触了一系列AI技术后,不禁产生了许多思考.我先后尝试了AI编程.AI写论文.AI写小说.AI绘画等,最近看到了一些关于AI构建虚拟世界以及Auto-GPT的AI类新闻.在这个过程中,我心头涌现出 ...

  9. 【转载】 Asp.Net MVC网站提交富文本HTML标签内容抛出异常

    今天开发一个ASP.NET MVC网站时,有个页面使用到了FCKEditor富文本编辑器,通过Post方式提交内容时候抛出异常,仔细分析后得出应该是服务器阻止了带有HTML标签内容的提交操作,ASP. ...

  10. PTA天梯赛训练题L1-064:估值一亿的AI核心代码(字符串模拟)

    Update:smz说regex秒过Orz,yzd记在这里了. 听说今年天梯赛有个烦人的模拟,我便被队友逼着试做一下……一发15,二发20.记一记,要不然枉费我写这么久…… 自己还是代码能力太菜了,校 ...

随机推荐

  1. 一款.NET开源、功能强大、跨平台的绘图库 - OxyPlot

    前言 今天大姚给大家分享一款.NET开源(MIT License).免费.跨平台.功能强大的绘图库,支持多平台使用(包括:WPF.UWP.WinForm.Silverlight.Xamarin.iOS ...

  2. linux查看redis安装路径

    ## linux查看redis安装路径 redis-cli -h 127.0.0.1 -p 6379redis-cli monitor > redis2.log /usr/local/redis ...

  3. Python 潮流周刊#56:NumPy 2.0 里更快速的字符串函数(摘要)

    本周刊由 Python猫 出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...

  4. 《软件性能测试分析与调优实践之路》第二版-手稿节选-Mysql数据库性能定位与分析

    在做MySQL数据的性能定位前,需要先知道MySQL查询时数据库内部的执行过程.只有弄清SQL的执行过程,才能对执行过程中的每一步的性能做定位分析.如图6-2-1所示. 图6-2-1 从图中可以看到, ...

  5. 解决git 区分文件名大小写

    问题:两人协作开发同一分支时,由于一方将组件文件名小写开头,并且推送到远程分支,导致我每次拉取代码会将我本地文件名改成小写,并且我手动改成大写后推送到远端仓库,远端仓库文件名无变化,还是小写. 查证后 ...

  6. 用cvCvtColor转化RGB彩色图像为灰度图像时发生的小失误

    版本信息 MAC版本:10.10.5 Xcode版本:7.2 openCV版本:2.4.13 在运行程序的时候发现cvCvtColor的地方程序报错 error: (-215) src.depth() ...

  7. 【HDC 2024】华为云开发者联盟驱动应用创新,赋能开发者成长

    本文分享自华为云社区<[HDC 2025]华为云开发者联盟驱动应用创新,赋能开发者成长>,作者:华为云社区精选. 6月21日到23日,华为开发者大会(HDC 2024)于东莞松山湖举行,这 ...

  8. 算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

    大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 决策树是一种简单直观的机器学习算法,它广泛应用于分类和回归问题中.它的核心思想是将复杂 ...

  9. Netty(一)IO模型

    1. Netty介绍 Netty 是由JBOSS提供的一个Jave开源框架,是一个异步地.基于事件驱动的网络应用框架,用以快速开发高性能.高可靠的网络IO程序. Netty主要针对在TCP协议下,面向 ...

  10. yb课堂 基于浏览器和node.js的http客户端Axios 《三十四》

    什么是Axios 基于promise用于浏览器和node.js的http客户端 支持浏览器和node.js 支持Promise API 支持拦截请求和响应 支持转换请求和响应数据 JSON数据的自动转 ...