MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

本文译自:Microsoft dataset aims
to help researchers create tools to answer questions as well as
people

10月16日,微软发布了一套由10万个问答组成的数据集,人工智能领域的研究人员可用它来构建能够与真人相媲美的问答系统。这套数据集被称为MS
MARCO
(Microsoft MAchine Reading
COmprehension),意为“微软机器阅读理解”。其背后的研发团队表示,MS
MARCO是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。

研发团队希望通过将这套数据集免费向广大研究人员提供,推动机器阅读领域的研究也能如图像和语音识别领域一样取得突破,同时促成有助于达成“通用人工智能”这一长期目标的科技进步,让机器能像人类一样思考。

“为了实现人工智能,我们要先做到让机器能像人类一样阅读和理解文档,MS
MARCO就是朝这方向迈出的一步。”微软必应搜索部门合作伙伴项目经理 Rangan Majumder说,他目前正领导该研究项目。

MARCO数据集,提高计算机阅读理解能力">

Majumder表示,眼下能够回答复杂问题的系统仍处于起步阶段。以必应等搜索引擎和微软小娜(Cortana)等人工智能助手为例,目前它们只能回答一些基本问题,例如“春节黄金周哪天开始?”或者“2,000乘以43得多少?”等。

但多数情况下,Majumder指出,搜索引擎和人工智能助手只能向用户提供一组搜索结果。用户固然可以据此获取所需信息,但前提是他们仍需自己动手再从搜索结果进行筛选,并在网页上找到答案。

为了优化自动问答系统,研究人员需要海量的“训练数据”。这些数据集可用于教会人工智能系统识别问题并制定答案,最终有望创建一套系统,届时哪怕遇到以前从未遇到过的独特问题,系统也能给出自己的回答。

MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

Majumder的团队中还包含了微软研究院的研究员和来自微软产品部门的研发人员,他们表示,MS
MARCO数据集之所以特别有效,是因为这些问题全都基于来自微软必应搜索引擎和微软小娜人工智能助手的已匿名处理的真实查询。团队从他们认为研究人员可能更感兴趣的查询,选出了置于MS
MARCO数据集的匿名问题。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。

研究人员表示,通过提供现实世界的问题和回答,他们可以训练系统更好地处理普通人会实际问到的琐碎而复杂的问题,包括很多并无明确答案或存在多个可能答案的查询。例如,数据集包含“古希腊人吃什么食物?”这个问题,为了提供正确的回答,研究人员翻阅了来自多个文档或文本的信息节选,找出谷物、蛋糕、牛奶、橄榄、鱼类、大蒜和卷心菜等食物作为答案。

微软深度学习技术中心的合作研究经理邓力博士说,先前的数据集在设计上有一定的限制或约束,便于研究人员更容易创建解决方案,即构建机器学习研究人员所说的“分类问题”,而不是试图理解问题中实际包含的文字。他说,MS
MARCO的设计目的在于让研究人员有机会用更先进的深度学习模型做试验,从而推动人工智能研究进一步发展。“我们的数据集不仅使用真实数据,而且消除了设计上的这些限制,这样新一代深度学习模型能够首先理解数据,然后回答问题。

MARCO数据集,提高计算机阅读理解能力">

Majumder指出,系统具备回答复杂问题的能力就能帮助人们更有效地获得信息,由此增强人类的能力。假设一名加拿大学生想知道自己是否有资格申请某项贷款。搜索引擎或许能够将该用户引向一组网站,但这名学生必须自行阅读其中的数据并自己找出答案。如果使用更好的工具,虚拟人工智能个人助手就可以代替这名学生扫描信息,并快速提供一个更细致甚至个性化的回答。

“由于世界上许多知识都是以书面形式记录的,如果我们能让机器像人一样善于阅读和理解文档,我们就可以‘解锁’所有这些应用场景。”Majumder说。

长期目标:“通用人工智能”

至少在目前,研究人员仍然未能创建出能真正了解或理解人类所说、所见或所写内容的系统,后者被许多人称为“通用人工智能”。

但在过去几年间,微软和其他机构的机器学习和人工智能研究人员在创建能识别对话里的词汇以及图像中的元素的系统方面取得了长足的进步。“微软在语音识别和图像识别领域均处于领先地位,眼下我们也希望能在阅​​读理解研究方面担当引路人,”Majumder说。但是Majumder也指出,这不是任何一家公司能够单枪匹马解决的问题。他所领导的团队愿意公开发布数据集,原因之一就是希望能与领域内的其他同行合作。

MS
MARCO
的训练数据集与促成机器学习与人工智能在其他领域取得突破的训练数据集类似, 包括ImageNet数据库,它被公认为用于测试图像识别先进性的首选数据集。来自微软亚洲研究院的视觉计算组正是使用了ImageNet对自己的首个深层残差网络加以测试,结果在图像识别准确性方面实现了重大提升。

MS
MARCO团队还计划效法ImageNet,创建一个排行榜,展示哪些研究团队取得了最好的结果。最终有望沿袭ImageNet年度图像识别挑战赛而形成一项更加正规的赛事。

研究人员可免费下载MS MARCO数据集,但仅限于非商业目的应用。下载链接请点击http://www.msmarco.org/dataset.aspx

微软发布MS MARCO数据集,提高计算机阅读理解能力的更多相关文章

  1. 阅读关于DuReader:百度大规模的中文机器阅读理解数据集

    很久之前就得到了百度机器阅读理解关于数据集的这篇文章,今天才进行总结!.... 论文地址:https://arxiv.org/abs/1711.05073 自然语言处理是人工智能皇冠上的明珠,而机器阅 ...

  2. 微软发布屏蔽Win10升级的官方办法

    微软发布屏蔽Win10升级的官方办法 导读 微软似乎从来就没有像现在这么焦燥过,当然了,攸关生死,他要还是能"蛋"定得住,那才真叫怪了.你看,为了推广Windows 10,一向傲娇 ...

  3. 官宣!微软发布 VS Code Server!

    北京时间 2022 年 7 月 7 日,微软在 VS Code 官方博客中宣布了 Visual Studio Code Server! 远程开发的过去与未来 2019 年,微软发布了 VS Code ...

  4. 微软发布TFS 2018!

    也许你还没来得及使用TFS 2017,今天,微软已经发布了TFS 2018的第一个版本(RC1). 与之前所有的候选版本一样,这是一个正式上线(微软成称为go-live)的TFS版本.如果你计划采纳T ...

  5. 实时人工智能:微软发布Project Brainwave预览版 现场可编程门阵列(Field Programmable Gate Array,简称FPGA) 硬件设计可以迅速演进

    https://mp.weixin.qq.com/s/bAPiPURZd-YsbV5PbzwpQQ 编者按:随着各大公司对于数据计算的要求越来越高,实时AI成为了研究者们关注的重点.在美国西雅图举行的 ...

  6. 微软发布Visual Studio Online公共预览版和ML.NET 1.4

    在今天的Ignite 2019上,Microsoft启动了 Visual Studio Online 公共预览版.Visual Studio Online将Visual Studio,云托管的开发人员 ...

  7. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  8. 微软发布独立Android模拟器 为开发者提供测试

    微软发布了 Visual Studio 2015 正式版,除了免费的社交版之外,另外也有付费的专业版.这套工具除了提供 Windows 应用程序的整合环境之外,你也可以利用它来开发 Android 程 ...

  9. PC-如何提高计算机的启动和关机的速度?

    如何提高计算机的启动和关机的速度? 一.bios的优化设置 在bios设置的首页我们进入"advanced bios features"选项,将光标移到"frist bo ...

随机推荐

  1. Qt QString 和 LPCWSTR 的相互转换

    在windosw 编程中,常用到LPCWSTR 变量,QT中最常用到QString,下面提供QString和LPCWSTR 相互转换的方法 LPWSTR 转换成QString LPCWSTR str; ...

  2. java centos7 gcc编码 解决socket通信 汉字乱码

    1.把 Java eclipes 设置编码成utf-8 windows->preference->workspace 2.centos7 gcc 默认为utf-8

  3. tesseract系列(4) -- tesseract训练问题总结

    1. 每次训练模型删除目录下,上述重复的名字 2. 生成inttemp.pffmtable文件的时候,如果下述命令(1)不行的话,或者报错,使用命令(2) (1)mftraining -F font_ ...

  4. Windows系统清理

    @echo off del/f/s/q %systemdrive%\*.tmp del/f/s/q %systemdrive%\*._mp del/f/s/q %systemdrive%\*.log ...

  5. Notes_STL_List_And_Map

    //Description: 使用STL遇到的问题 //Create Date: 2019-07-08 09:19:15 //Author: channy Notes_STL_List_And_Map ...

  6. “Spring Boot+Marklogic实战应用(1)”

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议.本文链接:http://www.blbk.info Spring Boot+Marklogic应用 摘要: 在前一节的介绍,相信 ...

  7. CentOS-SendMail服务

    title date tags layout music-id CentOS6.5 SendMail服务安装与配置 2018-09-04 Centos6.5服务器搭建 post 456272749 一 ...

  8. CLOUD信用管理设置

    1.参数设置(管理员账户) 2.客户管理-信用管理设置 3.信用检查规则设置 4.信用档案设置 5.涉及集团公司,母公司与子公司的设置 6.信用档案-对象类型可为客户及集团客户 7.信用特批权限设置 ...

  9. [LC] 250. Count Univalue Subtrees

    Given a binary tree, count the number of uni-value subtrees. A Uni-value subtree means all nodes of ...

  10. PLC常见四大故障及其处理方法

    众所周知,PLC即可编程控制器,是一种专门为在工业环境下应用而设计的数字运算操作的电子装置. 但PLC在运行中总是会出现一些故障问题,下面就为大家介绍一下PLC常见四大故障及其处理方法 PLC常见四大 ...