MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

本文译自:Microsoft dataset aims
to help researchers create tools to answer questions as well as
people

10月16日,微软发布了一套由10万个问答组成的数据集,人工智能领域的研究人员可用它来构建能够与真人相媲美的问答系统。这套数据集被称为MS
MARCO
(Microsoft MAchine Reading
COmprehension),意为“微软机器阅读理解”。其背后的研发团队表示,MS
MARCO是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。

研发团队希望通过将这套数据集免费向广大研究人员提供,推动机器阅读领域的研究也能如图像和语音识别领域一样取得突破,同时促成有助于达成“通用人工智能”这一长期目标的科技进步,让机器能像人类一样思考。

“为了实现人工智能,我们要先做到让机器能像人类一样阅读和理解文档,MS
MARCO就是朝这方向迈出的一步。”微软必应搜索部门合作伙伴项目经理 Rangan Majumder说,他目前正领导该研究项目。

MARCO数据集,提高计算机阅读理解能力">

Majumder表示,眼下能够回答复杂问题的系统仍处于起步阶段。以必应等搜索引擎和微软小娜(Cortana)等人工智能助手为例,目前它们只能回答一些基本问题,例如“春节黄金周哪天开始?”或者“2,000乘以43得多少?”等。

但多数情况下,Majumder指出,搜索引擎和人工智能助手只能向用户提供一组搜索结果。用户固然可以据此获取所需信息,但前提是他们仍需自己动手再从搜索结果进行筛选,并在网页上找到答案。

为了优化自动问答系统,研究人员需要海量的“训练数据”。这些数据集可用于教会人工智能系统识别问题并制定答案,最终有望创建一套系统,届时哪怕遇到以前从未遇到过的独特问题,系统也能给出自己的回答。

MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

Majumder的团队中还包含了微软研究院的研究员和来自微软产品部门的研发人员,他们表示,MS
MARCO数据集之所以特别有效,是因为这些问题全都基于来自微软必应搜索引擎和微软小娜人工智能助手的已匿名处理的真实查询。团队从他们认为研究人员可能更感兴趣的查询,选出了置于MS
MARCO数据集的匿名问题。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。

研究人员表示,通过提供现实世界的问题和回答,他们可以训练系统更好地处理普通人会实际问到的琐碎而复杂的问题,包括很多并无明确答案或存在多个可能答案的查询。例如,数据集包含“古希腊人吃什么食物?”这个问题,为了提供正确的回答,研究人员翻阅了来自多个文档或文本的信息节选,找出谷物、蛋糕、牛奶、橄榄、鱼类、大蒜和卷心菜等食物作为答案。

微软深度学习技术中心的合作研究经理邓力博士说,先前的数据集在设计上有一定的限制或约束,便于研究人员更容易创建解决方案,即构建机器学习研究人员所说的“分类问题”,而不是试图理解问题中实际包含的文字。他说,MS
MARCO的设计目的在于让研究人员有机会用更先进的深度学习模型做试验,从而推动人工智能研究进一步发展。“我们的数据集不仅使用真实数据,而且消除了设计上的这些限制,这样新一代深度学习模型能够首先理解数据,然后回答问题。

MARCO数据集,提高计算机阅读理解能力">

Majumder指出,系统具备回答复杂问题的能力就能帮助人们更有效地获得信息,由此增强人类的能力。假设一名加拿大学生想知道自己是否有资格申请某项贷款。搜索引擎或许能够将该用户引向一组网站,但这名学生必须自行阅读其中的数据并自己找出答案。如果使用更好的工具,虚拟人工智能个人助手就可以代替这名学生扫描信息,并快速提供一个更细致甚至个性化的回答。

“由于世界上许多知识都是以书面形式记录的,如果我们能让机器像人一样善于阅读和理解文档,我们就可以‘解锁’所有这些应用场景。”Majumder说。

长期目标:“通用人工智能”

至少在目前,研究人员仍然未能创建出能真正了解或理解人类所说、所见或所写内容的系统,后者被许多人称为“通用人工智能”。

但在过去几年间,微软和其他机构的机器学习和人工智能研究人员在创建能识别对话里的词汇以及图像中的元素的系统方面取得了长足的进步。“微软在语音识别和图像识别领域均处于领先地位,眼下我们也希望能在阅​​读理解研究方面担当引路人,”Majumder说。但是Majumder也指出,这不是任何一家公司能够单枪匹马解决的问题。他所领导的团队愿意公开发布数据集,原因之一就是希望能与领域内的其他同行合作。

MS
MARCO
的训练数据集与促成机器学习与人工智能在其他领域取得突破的训练数据集类似, 包括ImageNet数据库,它被公认为用于测试图像识别先进性的首选数据集。来自微软亚洲研究院的视觉计算组正是使用了ImageNet对自己的首个深层残差网络加以测试,结果在图像识别准确性方面实现了重大提升。

MS
MARCO团队还计划效法ImageNet,创建一个排行榜,展示哪些研究团队取得了最好的结果。最终有望沿袭ImageNet年度图像识别挑战赛而形成一项更加正规的赛事。

研究人员可免费下载MS MARCO数据集,但仅限于非商业目的应用。下载链接请点击http://www.msmarco.org/dataset.aspx

微软发布MS MARCO数据集,提高计算机阅读理解能力的更多相关文章

  1. 阅读关于DuReader:百度大规模的中文机器阅读理解数据集

    很久之前就得到了百度机器阅读理解关于数据集的这篇文章,今天才进行总结!.... 论文地址:https://arxiv.org/abs/1711.05073 自然语言处理是人工智能皇冠上的明珠,而机器阅 ...

  2. 微软发布屏蔽Win10升级的官方办法

    微软发布屏蔽Win10升级的官方办法 导读 微软似乎从来就没有像现在这么焦燥过,当然了,攸关生死,他要还是能"蛋"定得住,那才真叫怪了.你看,为了推广Windows 10,一向傲娇 ...

  3. 官宣!微软发布 VS Code Server!

    北京时间 2022 年 7 月 7 日,微软在 VS Code 官方博客中宣布了 Visual Studio Code Server! 远程开发的过去与未来 2019 年,微软发布了 VS Code ...

  4. 微软发布TFS 2018!

    也许你还没来得及使用TFS 2017,今天,微软已经发布了TFS 2018的第一个版本(RC1). 与之前所有的候选版本一样,这是一个正式上线(微软成称为go-live)的TFS版本.如果你计划采纳T ...

  5. 实时人工智能:微软发布Project Brainwave预览版 现场可编程门阵列(Field Programmable Gate Array,简称FPGA) 硬件设计可以迅速演进

    https://mp.weixin.qq.com/s/bAPiPURZd-YsbV5PbzwpQQ 编者按:随着各大公司对于数据计算的要求越来越高,实时AI成为了研究者们关注的重点.在美国西雅图举行的 ...

  6. 微软发布Visual Studio Online公共预览版和ML.NET 1.4

    在今天的Ignite 2019上,Microsoft启动了 Visual Studio Online 公共预览版.Visual Studio Online将Visual Studio,云托管的开发人员 ...

  7. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  8. 微软发布独立Android模拟器 为开发者提供测试

    微软发布了 Visual Studio 2015 正式版,除了免费的社交版之外,另外也有付费的专业版.这套工具除了提供 Windows 应用程序的整合环境之外,你也可以利用它来开发 Android 程 ...

  9. PC-如何提高计算机的启动和关机的速度?

    如何提高计算机的启动和关机的速度? 一.bios的优化设置 在bios设置的首页我们进入"advanced bios features"选项,将光标移到"frist bo ...

随机推荐

  1. ElasticSearch 分组查询

    curl -XPOST 'localhost:9200/bank/_search?pretty' -d ' { "size": 0, "aggs": { &qu ...

  2. day50-线程-定时器

    #1.定时器: from threading import Timer def func(): print('定时器') t = Timer(1,func) #定时一秒,开启func线程. t.sta ...

  3. k-means|k-mode|k-prototype|PAM|AGNES|DIANA|Hierarchical cluster|DA|VIF|

    聚类算法: 对于数值变量,k-means eg:k=4,则选出不在原数据中的4个点,计算图形中每个点到这四个点之间的距离,距离最近的便是属于那一类.标准化之后便没有单位差异了,就可以相互比较. 对于分 ...

  4. We don't wanna work!

    We don't wanna work! [JAG Asia 2016] 两个set,一个代表工作的,一个代表不工作的 其实是一个很简单的模拟,但是我竟然排序之前标号.... 检查代码的时候要从头开始 ...

  5. v-cloak使用

    v-cloak:保持和元素实例的关联,直到结束编译后自动消失. v-cloak指令和CSS 规则一起用的时候,能够解决差值表达式闪烁的问题(即:可以隐藏未编译的标签直到实例准备完毕). 就拿上一段代码 ...

  6. HTTP1.0和HTTP1.1的一些区别

    HTTP1.0和HTTP1.1的一些区别 HTTP1.0最早在网页中使用是在1996年,那个时候只是使用一些较为简单的网页上和网络请求上,而HTTP1.1则在1999年才开始广泛应用于现在的各大浏览器 ...

  7. java加载property文件配置

    1 properties简介: properties是一种文本文件,内容格式为:     key = value     #单行注释 适合作为简单配置文件使用,通常作为参数配置.国际化资源文件使用. ...

  8. c/c++[001]:start

    作为一个学校课程跳过c语言的萌新,这次重新学习c/c++从源头上明白这两种不同的输入输出还是很有必要 scanf()是C语言中的一个输入函数.与printf函数一样,都被声明在头文件stdio.h里, ...

  9. arm汇编几个经典例题

    这几个例题来自我们的上机实验,通过这几个例题基本上能掌握arm汇编一些最基本的操作 arm汇编实现1-100的加法 12345678910111213 AREA Example1,CODE,READO ...

  10. 算法笔记4.3递归 问题 B: 数列

    题目描述 编写一个求斐波那契数列的递归函数,输入n 值,使用该递归函数,输出如下图形(参见样例). 输入 输入第一行为样例数m,接下来有m行每行一个整数n,n不超过10. 输出 对应每个样例输出要求的 ...