Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”
MaryBellard(左)和AnneTaylor(右)是Seeing
AI开发团队的成员,SeeingAI成果的背后是计算机视觉数十年研究的支持。
当Anne
Taylor走进一个房间时,她像其他任何人一样都会关心这样一些问题:哪里有空座位?向我走来的那个人是谁?那个人是在微笑还是皱眉?这个标志牌是什么意思?
然而,对于双目失明的Taylor而言,这些信息并非总是那么容易找到。她说,现在已经有一些能够帮助视障人士的手机应用和工具,但往往功能单一,而且并不是很好用;大多数视障人士更愿意尽可能独立地领略这个世界而不是选择请求他人帮助。
Anne
Taylor现在是微软的一名高级项目经理,她的职责是让微软的产品更容易使用,“我们要为真正重要的场景寻求解决方案”,她说。大约一年前Taylor来到微软,她立刻就对一群研究员和工程师的一个合作项目产生了兴趣。他们从事的项目旨在为视障人士开发一套辅助工具——Taylor亲切地称之为未来的“瑞士军刀”(“Swiss
Army knife”)“我说,‘让我们做一些真正对盲人群体有重要意义的事情吧!’“
这个项目名为Seeing
AI,该技术通过计算机视觉和自然语言处理来描述一个人的周边环境、朗读文本、回答问题,甚至能够识别他人的面部表情。SeeingAI可以用于手机应用,也可用于Pivothead智能眼镜。Taylor说,Seeing
AI为依靠导盲手杖和导盲犬的视障人士提供了另一个层面的信息,“这款应用将有助于为视障人士营造更公平的环境。”
Seeing AI已在上周举行的微软2016
Build开发者大会上首次公开亮相,并受到了一致好评,目前其正式发布日期待定。Build大会期间,微软还推出了CaptionBot(图像描述机器人),这是一个可以接收任何图像并提供图像详细描述的演示网站。
观看Build大会Seeing AI视频链接:微软认知服务: Seeing AI应用
极深的深层神经网络、自然语言处理及更多
Seeing
AI和CaptionBot作为最新的技术成果,其背后的计算机视觉、图像识别、自然语言处理和机器学习等领域的研究已持续了数十年。近年来,一系列的研究突破让计算机视觉研究者们有机会完成在几年前还不敢想的事情。
负责微软认知服务(Microsoft Cognitive
Service)中图像描述(Image
Captioning)技术研究的微软资深研究员何晓冬形容道:“有人将其形容为奇迹。可以说,我们今天开发的智能技术比六年前好太多了。”他说,该领域的进步是如此之快,不用说六年,就是现在与六个月前相比都会有很多进步。例如,他的团队中主管开发工作的高级研究工程师Kenneth
Tran最近想出的一个方案,使得图像描述系统的速度提高了20倍以上,从而让Seeing
AI的用户能够更加迅速地获取他们所需的信息。
几年前,研究员们想到了利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习。随着系统获得与任务相关的训练数据越来越多,它们就变得越来越善于做某些事情——机器学习指的就是这个过程。例如,如果一名计算机科学家想设计一款帮助骑自行车的人识别后方车辆的应用,他就要向计算机提供无数张车辆的照片,以让这款应用学会识别一辆汽车与一个交通标志或一棵树之间的区别。计算机科学家以前也曾运用过神经网络,但却不是以这种方式,而如今新的方法让计算机视觉的精确度实现了巨大飞跃。
就在几个月前,微软亚洲研究院首席研究员孙剑和主管研究员何恺明实现了又一个巨大突破:他们推出了一个深达152层的“深层残差网络”系统用于准确识别图片,这一图像识别的新方法显著改善了识别精度。该系统在ImageNet图像识别挑战赛中的错误率低至3.57%,而此前人眼辨识的错误率大概为5.1%。这项研究在学术界引起了轰动,除了ImageNet之外,研究员们还赢得了另一图像识别领域的主要赛事:微软常见物体图像识别挑战赛(MSCOCO,
Microsoft Common Objects in Context)。
让科技做你的“眼”
微软研究院的研究员们不仅在寻找识别图像的方法,还在为图像进行描述。这项研究结合了图像识别技术与自然语言处理技术,能帮助视障人士获得对图像的准确描述,还可能帮助那些需要图像信息却无法直接看到图像的人——比如正在开车的司机。
与其他研究项目一样,该图像描述的研究工作也因其准确性而广受赞誉,并且为Seeing
AI和CaptionBot的功能奠定了基础。现在,研究人员正在努力拓展训练数据集,以便让用户通过图像描述能够更深入地了解自己周围的世界。
MargaretMitchell
Seeing
AI项目组中的Margaret
Mitchell是一名专攻自然语言处理的研究员,也是图像描述领域顶尖的研究者之一。她说,她和同事们正在寻找方法,让计算机可以用更加人性化的方式来描述图像。例如,计算机可以将一个场景准确地描述为“一群人坐在一起”,但真人可能会将这一场景描述为“一群人坐在一起享受美好时光。”目前的挑战就是让这项技术懂得一张图像中哪些是对人们最重要、最值得描述的内容。“一张图像中有什么,和我们如何谈论一张图像可是完全不同的两回事,”Mitchell说。
微软的另一些研究员们正在努力让最新的图像识别工具提供更深入的图片解释。例如,与单纯地将图片描述为“一个男人和一个女人坐在一起”相比,对人们更有帮助的描述可能是:“奥巴马和希拉里·克林顿正在摆pose拍照”。今天人们在网上搜索图片时,绝大多数情况下搜索引擎会根据与图片相关的文字内容,从而得到美国名媛金·卡戴珊或“霉霉”泰勒·斯威夫特的照片,这些搜索结果主要依据文本内容。而微软的资深研究员张磊及郭彦东等研究员正在开发一套借助机器学习识别名人、政治家和公众人物的系统,这套系统会根据图像本身的元素,而非与图像相关的文字内容来进行图像识别。
这一研究成果将成为微软认知服务中最新的视觉工具的一部分。微软认知服务基于微软领先的机器学习研究成果,开发者们可以用它来构建应用和服务,例如识别人脸、辨别情绪、分清不同的声音等,这些工具还为how-old.net(微软颜龄机器人)和Fetch(微软看图识狗)等有趣的微软人工智能应用提供了技术基础。
从一个灵感到实用产品
一直以来,微软研究院最新的研究进展都以闪电般的速度转化为人们可以实际使用的产品,而这一现象越来越普遍,微软认知服务就是一例。从事微软认知服务项目工作的工程师认为,他们的工作有点像拼图游戏,用来拼图的模块就是最新的研究成果。“所有这些模块被拼在了一起,而我们则需要弄清楚如何把它们呈现给终端用户。”微软认知服务的软件工程经理Chris
Buehler说道。
Seeing
AI这个最终将有可能帮助视障人士的研究项目,是研究成果如何快速转化为实用工具的另一个例证。这个项目的想法是在去年“微软骇客马拉松”(//oneweek
Hackathon)活动中被提出来的。该活动会让微软各个部门的员工聚在一起,努力让疯狂的想法成为现实。

打造Seeing
AI的小组成员包括来自世界各地的研究员和工程师。Seeing
AI吸引他们的除了其技术上的挑战外,还有他们期望帮助视障人士更加独立生活的美好目标。“我们是一个由不同背景的人员组成的超级团队,我们努力拿出一些人们切实需要的东西,”自Seeing
AI项目成立以来一直在其中担任领导角色的Anirudh
Koul表示,他之所以对Seeing AI有着极大的兴趣,是因为他的祖父正在逐渐失明。
而对于文章开头的Taylor来说,双目失明的她加入微软正代表了盲人的需求,这不仅是一次很好的经历,而且真的带来了一种能够改变人们生活的潜在产品。当初,Seeing
AI旨在为视障人士开发一套“瑞士军刀”的愿景吸引了她的加入,如今,正如Taylor所说,“我们最后真的推出了这款如此宝贵的‘瑞士军刀’,让其他视障人士也能更好地欣赏这个世界的美好。”
原文链接:
Decades of computer
visionresearch, one ‘Swiss Army knife’
相关阅读:
刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”的更多相关文章
- ZT:阿里合伙人发文:十年磨一剑,自研数据库终拿世界第一
按:真正做技术的,就该这样. 以下为全文转载 (观察者网讯) 10月24日,阿里巴巴合伙人.高德总裁刘振飞在阿里云开发者社区发文,回忆从2009年启动“去IOE”工程到2019年OceanBase拿下 ...
- 十年磨一剑 Delphi重新崛起再写传奇
新年伊始,英巴卡迪诺公司(Embarcadero)就在其官网发布了"激动人心的RAD Studio2018年发展规划"公告(见上图).公告中指出,将在于2018年第一季度发布10. ...
- 十年磨一剑 Delphi再写传奇(不争辩,不解释,十年坚持不懈的努力)
新年伊始,英巴卡迪诺公司(Embarcadero)就在其官网发布了“激动人心的RAD Studio2018年发展规划”公告(见上图).公告中指出,将在于2018年发布10.3.X新版本,新版本兼容Ex ...
- 十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题
摘要: 2009年这项关于大数据的技术长征开始.王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系. 大数据时代,随着企业数据规模的急剧增长,传统软件已无法承 ...
- Peter Norvig:自学编程,十年磨一剑
若要在某一领域内达到专家级的水平,其关键在于"审慎地重复",也就是说,并非是机械地,一遍又一遍地练习,而是要不断地挑战自我,试图超越自身当前的水平,通过不断的尝试挑战,并在尝试的过 ...
- 2019年上半年收集到的AI计算机视觉方向干货文章
2019年上半年收集到的AI计算机视觉方向干货文章 时光飞逝,一晃上半年快要结束了.对人工智能高度感兴趣的笔者,每天都要看不少人工智能方面的文章,很多是干货文章,受益匪浅,所以整理成这个系列的文章. ...
- 解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀(译)
解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀(译) http://improve.dk/orcamdf-rawdatabase-a-swiss-a ...
- 第三百八十八节,Django+Xadmin打造上线标准的在线教育平台—网站列表分页
第三百八十八节,Django+Xadmin打造上线标准的在线教育平台—网站列表分页 分页可以用一个第三方分页模块django-pure-pagination 下载地址:https://github.c ...
- 第三百八十三节,Django+Xadmin打造上线标准的在线教育平台—第三方模块django-simple-captcha验证码
第三百八十三节,Django+Xadmin打造上线标准的在线教育平台—第三方模块django-simple-captcha验证码 下载地址:https://github.com/mbi/django- ...
随机推荐
- Django知识点_梳理
- 2.windows-oracle实战第二课 -用户管理
创建用户:在oracle中创建一个用户有create user语句,一般是具有dba(数据库管理员)的权限才能使用.用户创建在所在的实例数据库中. 给用户修改密码:passw 给别人修改密码需要dba ...
- 题解 P3061 【[USACO12DEC]疯狂的栅栏Crazy Fences】
这道题的思想是首先我们找到所有的栅栏围成的空间,然后求每一只奶牛在哪几个栅栏空间之中,最后比较他们在的所有栅栏空间-----如果奶牛a和b同时在空间c,d和e内,那么他们一定在同一群中. 测试围栏的方 ...
- 微服务监控druid sql
参考该文档 保存druid的监控记录 把日志保存的关系数据数据库(mysql,oracle等) 或者nosql数据库(redis,芒果db等) 保存的时候可以增加微服务名称标识好知道是哪个微服务的sq ...
- SAP PM:设备主数据常用BAPI
如下参考: STATUS_CHANGE_EXTERN BAPI_EQMT_MODIFY BAPI_EQUI_CHANGE PM BAPI: Change Equipment BAPI_EQUI_CRE ...
- 用logstash 作数据的聚合统计
用logstash 作数据的聚合统计 以spark-streaming 处理消费数据,统计日志经spark sql存储在mysql中 日志写入方式为append val wordsDataFrame ...
- Spring Boot中@Async的作用
在Spring中,@Async这个注解用于标记的异步的方法.方法上一旦标记了这个方法,当其它线程调用这个方法时,就会开启一个新的线程去异步处理业务逻辑. 此注解的使用说明: 1.此注解可以用在方法上, ...
- Object.prototype.toString.call(obj).slice(8,-1)
1.Object.prototype.toString() 该方法返回描述某个对象数据类型的字符串,如自定义的对象没有被覆盖,则会返回“[object type]”,其中,type则是实际的对象类型. ...
- 压缩感知与稀疏模型——Convex Methods for Sparse Signal Recovery
第三节课的内容.这节课上课到半截困了睡着了,看着大家都很积极请教认真听讲,感觉很惭愧.周末不能熬太晚.这个博客就记录一下醒着时候听到的内容. Motivation 目前的时代需要处理的数据量维度可能很 ...
- [LC] 59. Spiral Matrix II
Given a positive integer n, generate a square matrix filled with elements from 1 to n2 in spiral ord ...