MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

本文译自:Microsoft dataset aims
to help researchers create tools to answer questions as well as
people

10月16日,微软发布了一套由10万个问答组成的数据集,人工智能领域的研究人员可用它来构建能够与真人相媲美的问答系统。这套数据集被称为MS
MARCO
(Microsoft MAchine Reading
COmprehension),意为“微软机器阅读理解”。其背后的研发团队表示,MS
MARCO是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。

研发团队希望通过将这套数据集免费向广大研究人员提供,推动机器阅读领域的研究也能如图像和语音识别领域一样取得突破,同时促成有助于达成“通用人工智能”这一长期目标的科技进步,让机器能像人类一样思考。

“为了实现人工智能,我们要先做到让机器能像人类一样阅读和理解文档,MS
MARCO就是朝这方向迈出的一步。”微软必应搜索部门合作伙伴项目经理 Rangan Majumder说,他目前正领导该研究项目。

MARCO数据集,提高计算机阅读理解能力">

Majumder表示,眼下能够回答复杂问题的系统仍处于起步阶段。以必应等搜索引擎和微软小娜(Cortana)等人工智能助手为例,目前它们只能回答一些基本问题,例如“春节黄金周哪天开始?”或者“2,000乘以43得多少?”等。

但多数情况下,Majumder指出,搜索引擎和人工智能助手只能向用户提供一组搜索结果。用户固然可以据此获取所需信息,但前提是他们仍需自己动手再从搜索结果进行筛选,并在网页上找到答案。

为了优化自动问答系统,研究人员需要海量的“训练数据”。这些数据集可用于教会人工智能系统识别问题并制定答案,最终有望创建一套系统,届时哪怕遇到以前从未遇到过的独特问题,系统也能给出自己的回答。

MARCO数据集,提高计算机阅读理解能力" title="微软发布MS MARCO数据集,提高计算机阅读理解能力">

Majumder的团队中还包含了微软研究院的研究员和来自微软产品部门的研发人员,他们表示,MS
MARCO数据集之所以特别有效,是因为这些问题全都基于来自微软必应搜索引擎和微软小娜人工智能助手的已匿名处理的真实查询。团队从他们认为研究人员可能更感兴趣的查询,选出了置于MS
MARCO数据集的匿名问题。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。

研究人员表示,通过提供现实世界的问题和回答,他们可以训练系统更好地处理普通人会实际问到的琐碎而复杂的问题,包括很多并无明确答案或存在多个可能答案的查询。例如,数据集包含“古希腊人吃什么食物?”这个问题,为了提供正确的回答,研究人员翻阅了来自多个文档或文本的信息节选,找出谷物、蛋糕、牛奶、橄榄、鱼类、大蒜和卷心菜等食物作为答案。

微软深度学习技术中心的合作研究经理邓力博士说,先前的数据集在设计上有一定的限制或约束,便于研究人员更容易创建解决方案,即构建机器学习研究人员所说的“分类问题”,而不是试图理解问题中实际包含的文字。他说,MS
MARCO的设计目的在于让研究人员有机会用更先进的深度学习模型做试验,从而推动人工智能研究进一步发展。“我们的数据集不仅使用真实数据,而且消除了设计上的这些限制,这样新一代深度学习模型能够首先理解数据,然后回答问题。

MARCO数据集,提高计算机阅读理解能力">

Majumder指出,系统具备回答复杂问题的能力就能帮助人们更有效地获得信息,由此增强人类的能力。假设一名加拿大学生想知道自己是否有资格申请某项贷款。搜索引擎或许能够将该用户引向一组网站,但这名学生必须自行阅读其中的数据并自己找出答案。如果使用更好的工具,虚拟人工智能个人助手就可以代替这名学生扫描信息,并快速提供一个更细致甚至个性化的回答。

“由于世界上许多知识都是以书面形式记录的,如果我们能让机器像人一样善于阅读和理解文档,我们就可以‘解锁’所有这些应用场景。”Majumder说。

长期目标:“通用人工智能”

至少在目前,研究人员仍然未能创建出能真正了解或理解人类所说、所见或所写内容的系统,后者被许多人称为“通用人工智能”。

但在过去几年间,微软和其他机构的机器学习和人工智能研究人员在创建能识别对话里的词汇以及图像中的元素的系统方面取得了长足的进步。“微软在语音识别和图像识别领域均处于领先地位,眼下我们也希望能在阅​​读理解研究方面担当引路人,”Majumder说。但是Majumder也指出,这不是任何一家公司能够单枪匹马解决的问题。他所领导的团队愿意公开发布数据集,原因之一就是希望能与领域内的其他同行合作。

MS
MARCO
的训练数据集与促成机器学习与人工智能在其他领域取得突破的训练数据集类似, 包括ImageNet数据库,它被公认为用于测试图像识别先进性的首选数据集。来自微软亚洲研究院的视觉计算组正是使用了ImageNet对自己的首个深层残差网络加以测试,结果在图像识别准确性方面实现了重大提升。

MS
MARCO团队还计划效法ImageNet,创建一个排行榜,展示哪些研究团队取得了最好的结果。最终有望沿袭ImageNet年度图像识别挑战赛而形成一项更加正规的赛事。

研究人员可免费下载MS MARCO数据集,但仅限于非商业目的应用。下载链接请点击http://www.msmarco.org/dataset.aspx

微软发布MS MARCO数据集,提高计算机阅读理解能力的更多相关文章

  1. 阅读关于DuReader:百度大规模的中文机器阅读理解数据集

    很久之前就得到了百度机器阅读理解关于数据集的这篇文章,今天才进行总结!.... 论文地址:https://arxiv.org/abs/1711.05073 自然语言处理是人工智能皇冠上的明珠,而机器阅 ...

  2. 微软发布屏蔽Win10升级的官方办法

    微软发布屏蔽Win10升级的官方办法 导读 微软似乎从来就没有像现在这么焦燥过,当然了,攸关生死,他要还是能"蛋"定得住,那才真叫怪了.你看,为了推广Windows 10,一向傲娇 ...

  3. 官宣!微软发布 VS Code Server!

    北京时间 2022 年 7 月 7 日,微软在 VS Code 官方博客中宣布了 Visual Studio Code Server! 远程开发的过去与未来 2019 年,微软发布了 VS Code ...

  4. 微软发布TFS 2018!

    也许你还没来得及使用TFS 2017,今天,微软已经发布了TFS 2018的第一个版本(RC1). 与之前所有的候选版本一样,这是一个正式上线(微软成称为go-live)的TFS版本.如果你计划采纳T ...

  5. 实时人工智能:微软发布Project Brainwave预览版 现场可编程门阵列(Field Programmable Gate Array,简称FPGA) 硬件设计可以迅速演进

    https://mp.weixin.qq.com/s/bAPiPURZd-YsbV5PbzwpQQ 编者按:随着各大公司对于数据计算的要求越来越高,实时AI成为了研究者们关注的重点.在美国西雅图举行的 ...

  6. 微软发布Visual Studio Online公共预览版和ML.NET 1.4

    在今天的Ignite 2019上,Microsoft启动了 Visual Studio Online 公共预览版.Visual Studio Online将Visual Studio,云托管的开发人员 ...

  7. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  8. 微软发布独立Android模拟器 为开发者提供测试

    微软发布了 Visual Studio 2015 正式版,除了免费的社交版之外,另外也有付费的专业版.这套工具除了提供 Windows 应用程序的整合环境之外,你也可以利用它来开发 Android 程 ...

  9. PC-如何提高计算机的启动和关机的速度?

    如何提高计算机的启动和关机的速度? 一.bios的优化设置 在bios设置的首页我们进入"advanced bios features"选项,将光标移到"frist bo ...

随机推荐

  1. Monkey安装与配置教程

    一.JAVA环境的搭建 安装jdk1.8.0_221,完成环境变量的配置 然后再在系统变量中找到Path,添加%JAVA_HOME%\bin;,确定后,按win+r打开运行,输入cmd 在cmd窗口中 ...

  2. 网络类(IP、dns、网络连接类)

    一.centOS 7 设置DNS方法 使用全新的命令行工具 nmcli 来设置 1.显示当前网络连接 nmcli connection show   NAME UUID TYPE DEVICE eno ...

  3. 37)PHP,获取数据库值并在html中显示(晋级2)

    下面的是上一个的改进版,我知道为啥我的那个有问题了,因为我的__construct()这个函数的里面的那个变量名字搞错了,哎,这是经常犯得毛病,傻了吧唧,气死我了. 之前的那个变量的代码样子: cla ...

  4. CSS样式表---------第三章:样式属性

    三.样式属性 1.背景与前景 background-color:#90; ------------背景色,样式表优先级高. background-image:url(路径)-------------- ...

  5. jQuery性能优化与技巧

    1.使用最新版本的jQuery类库 jQuery的每一个新的版本都会较上一版进行Bug修复和一些优化,同时也会包含一些创新,所以建议使用最新版本的jQuery来提高性能,需要注意的是在更换版本之后,要 ...

  6. pycharm2018后版本执行Flask app.run()深坑

    在2018年以前的版本,以上配置在app.run()里面的内置方法

  7. Python之循环条件、变量、字符串格式化

    一.认识python python语言的优缺点,自行百度,这里不概述,简单说下,python是一门面向对象,解释型计算机语言.那么问题来了,解释型和编译型语言有什么区别? 1.解释型和编译型语言区别 ...

  8. react项目中引入了redux后js控制路由跳转方案

    如果你的项目中并没有用到redux,那本文你可以忽略 问题引入 纯粹的单页面react应用中,通过this.props.history.push('/list')就可以进行路由跳转,但是加上了redu ...

  9. [LC] 152. Maximum Product Subarray

    Given an integer array nums, find the contiguous subarray within an array (containing at least one n ...

  10. Jsp入门EL表达式_学习笔记

    1.EL表达式 [1] 简介 > JSP表达式 <%= %> 用于向页面中输出一个对象. > 到JSP2.0时,在我们的页面中不允许出现 JSP表达式和 脚本片段. > ...