简评: 今年二月份刷屏的 GPT-2 着实厉害,那个生成续写故事的例子更是效果好到吓人一跳,它到底有多厉害,本文略微讲讲。更详细的信息可参考文末 OpenAI 的博客链接。

你能从下面这两段文字里品味出什么区别?

「四月间,天气寒冷晴朗,钟敲了十三下。」
「我坐在小汽车里,前往西雅图开始一份新工作。给车加油,插入钥匙,让它自己开。我沉入冥思,想象这会是怎样的一天。」

第一段文字,是英国著名作家乔治·奥维尔(George Orwell)的传世经典,政治荒诞讽刺小说《1984》开篇第一句话。

第二段文字,则是将第一段文字输入 GPT-2 程序后,这个 AI 系统的自动续写。

仅仅输入这么简单的一句话,GPT-2 显然就精确的抓住了乔治·奥维尔《1984》的荒诞、压抑、恐惧和反乌托邦的笔调,洋洋洒洒的续写起来:

一百年后,2045 年, 我在中国一个贫穷农村地区的一所中学教书。我先开始教的是中国历史和中国科技史......

▎「深度造假」

GPT-2 人工智能文字编写程序可以写小说、新闻、发言稿,还可以发短信推文。

程序开发者给它起了个绰号 —— 深度造假文字(deepfakes for text),精确地概括了它的功能。简而言之,GPT-2 就是一个文字发生器。你可以文字输入这个 AI 系统,只言片语或者大段文字都行,之后程序会根据自己的判断,决定接下来应该如何写作。

它产生的文字,从质量到数量到适应范围,都远远超出了设计者的预期。

它的「造假能力」如此令人信服,以至于其所属公司 Open AI 做出了一个不同寻常的决定:暂不公开 GPT-2 的技术信息,以免该技术被恶意使用。

▎以假乱真

与其它类似功能的程序相比,GPT-2 几乎不露马脚,比如写着写着忘了在写什么,或夹杂一些莫名其妙的词汇等。

英国《卫报》记者把英国脱欧的一些标题词汇输入 GPT-2,它写出了这样的一段「新闻稿」:

当被要求对有关报道做出澄清时,梅首相的发言人说:“首相已经明确表明,她要做的是尽快完成脱欧,这在上周的女王年度施政讲话中有明确授权。”

OpenAI 的研究负责人阿莫迪(Dario Amodei)对《卫报》说,GPT-2 从两个方面具有革命性的突破 —— 一是它的数据储藏能力巨大,是现有最前沿的 AI 文字发生器数据储量的 12 倍。这使得它能更好地理解掌握写作文风,笔法和意图。这也导致了它的第二个突破,即它的写作质量和应用的广泛性。

而也正是它生产出的文字达到了真假难辨的程度,也促使 OpenAI 公司决定暂时不公开 GPT-2 的技术。他们下一步将测试使用 GPT-2 可能出现的任何结果,以及如何防止恶意使用。

公司表示,使用 AI 技术的道德原则是一个全新的领域,他们还在探索之中。


博客链接:Better Language Models and Their Implications
推荐阅读:数字游戏:艺术家如何用大数据展现艺术

欢迎关注:微信公众号「极光开发者」

GPT-2,吓坏创造者的「深度造假写手」的更多相关文章

  1. 题解 「CTSC2018暴力写挂」

    题目传送门 题目大意 给出两个大小为 \(n\) 的树,求出: \[\max\{\text{depth}(x)+\text{depth}(y)-\text{depth}(\text{LCA}(x,y) ...

  2. 「深度剖析」程序员因为奇葩需求暴打pm,然后被双双开除

    想必大家都听说了,这两天关于中国平安一个产品经理因奇葩需求和程序员爆发肢体冲突的事件在朋友圈被刷屏,更有现场打架视频在技术群里疯传. 在这里先带大家简单文字回顾下事情经过,N次打架视频和截图就不给大家 ...

  3. 百度「Web 前端研发部」面试过程和常见问题 可能会采用哪些方法来面试 STAR 面试法 喜欢什么样的面试者 喜欢问的问题

    http://segmentfault.com/a/1190000002498800 在他们的github上看到的,收藏一下备用.看完觉得还有很多要努力的地方. FEX 的面试过程 我们一般会有 3 ...

  4. C#下实现的K-Means优化[1]-「离群点检测」

    资源下载 #本文PDF版下载 C#下实现的K-Means优化[1]-「离群点检测」 前言 在上一篇博文中,我和大家分享了「C # 下实现的多维基础K-MEANS聚类」的[C#下实现的基础K-MEANS ...

  5. 「COCI2016/2017 Contest #2」Bruza

    「COCI2016/2017 Contest #2」Bruza 解题思路 : 首先对于任意时刻 \(i\) ,硬币一定移动到了深度为 \(i\) 的节点,所以第 \(i\) 时刻 Danel 一定染掉 ...

  6. 精心整理「服务器Linux C/C++」 成长路程(附思维导图)

    前言 我不是名校毕业,更没有大厂的背景,我只是一个毕业不到 2 年的普普通通的程序员,在摸爬滚打的工作这段时间里,深知了有一个「完整的知识体系」是非常重要的.当事人非常后悔没有在大学期间知道这个道理- ...

  7. #10471. 「2020-10-02 提高模拟赛」灌溉 (water)

    题面:#10471. 「2020-10-02 提高模拟赛」灌溉 (water) 假设只有一组询问,我们可以用二分求解:二分最大距离是多少,然后找到深度最大的结点,并且把它的\(k\)倍祖先的一整子树删 ...

  8. 众安「尊享e生」果真牛的不可一世么?

    近日,具有互联网基因的.亏损大户(成立三年基本没盈利,今年二季度末亏损近4亿,你能指望它多厉害?).财产险公司—众安推出“尊享e生”中高端医疗保险(财险公司经营中高端医疗真的很厉害?真的是中高端医疗险 ...

  9. XCActionBar 「Xcode 中的 Alfred」

    下载地址:https://github.com/pdcgomes/XCActionBar 基本命令: (1)「command+shift+8」或者双击「command」键可以打开「动作输入框窗口」 ( ...

随机推荐

  1. leetcode-easy-string- 38 Count and Say

    mycode   91.28% 思路:题意实在太难理解了,尤其是英文又不好,只能参看下别人的资料,理解下规则.终于理解,题意是n=1时输出字符串1:n=2时,数上次字符串中的数值个数,因为上次字符串有 ...

  2. 左值引用&右值引用实践【TODO】

    这篇文章写的很好,下半部分还未完全理解,后续还需要回头来看看20190706(): https://www.cnblogs.com/likaiming/p/9045642.html 简单实践如下: # ...

  3. Selenium 2自动化测试实战6(异常)

    一.异常 python用异常队形(exception object)来表示异常情况,遇到错误后,会引发异常.如果异常对象并未被处理和捕捉,则程序就会用所谓的回溯(Traceback,一种错误信息)来终 ...

  4. Kubernetes Controller执行框架解析

    毫无疑问,声明式API以及Controller机制是Kubernetes设计理念的基础.Controller不断从API Server同步资源对象的期望状态并且在资源对象的期望状态和实际运行状态之间进 ...

  5. Linux内存:物理内存管理概述

    内存中的物理内存管理 概述 一般来说,linux内核一般将处理器的虚拟地址空间划分为2部分.底部比较大的部分用于用户进程,顶部则专用于内核. 在IA-32系统上,地址空间在用户进程和内核之间划分的典型 ...

  6. 使用FreeHttp任意篡改http报文 (FreeHttp使用及实现说明)

    本文转自:https://www.cnblogs.com/lulianqi/p/10428551.html 前言 FreeHttp是一个Fiddler插件借助FreeHttp您可按照您自己的设定修改请 ...

  7. C++笔记——类(0)定义、访问控制、友元、default、mutable、构造函数

    整理一下一些关于类的知识点,毕竟还是很经常用的(先总结一部分,太多了). 定义格式.访问控制 C++里面定义类的关键词有两个,一个是class,另一个是struct,他们基本没有区别,除了成员变量的默 ...

  8. squid的三种模式

    一.squid代理服务器概述: 概述:Squid Cache(简称为Squid)是http代理服务器软件.Squid用途广泛,可以作为缓存服务器也可以作为缓存代理服务器,代理用户向web服务器请求数据 ...

  9. Libra的思考

    这几年关注了很多的新技术,近期让我觉得值得一讲的是blockchain,刚巧6.18号就发布了Libra 他是这么介绍自己的 libra https://developers.libra.org/bl ...

  10. 7.接入类流程-PRACH优化

    PRACH优化 就是伪随机序列随机码(前导序列码).优化的目的就是减小码与码之间碰撞的 基站广播伪随机序列码(如64个),终端挑选一个发送.不同的用户使用同一个码就会产生碰撞.同频组网情况下,邻区的伪 ...