引言:本文来自infoQ架构师电子月刊对DataPipeline创始人&CEO陈诚的约稿。陈诚,毕业于上海交大,留学于美国密西根大学,前Yelp大数据研发工程师,曾就职于美国Google、Yelp 等; 拥有6年多的大数据、计算机算法等实践经验。

朋友圈最近看到一篇文章 ——《IBM沃森错开致命药,国内67家医院在用,秘密文件曝光严重bug》。虽然只是测试病例,但看上去沃森相当地不靠谱,给有出血症状的癌症病人开了容易导致出血的药品,严重时可致患者死亡。沃森是IBM花了150亿美元培养的AI学霸,成绩不尽如人意,部门不能盈利,失望在所难免。然而AI正如一个学习能力超强的小孩子,需要反复研习各种病例、新药,来提高判断的准确度。

无独有偶,最近也有另一篇报道说亚马逊AI的人脸识别系统遭到质疑,从535位美国参众两院议员中识别出28名“罪犯”,一时引起大量对于公共安全和执法准确率的担忧。亚马逊迅速在回应中提到在对Rekognition 系统人脸识别API的默认置信阈值被设置成了80%, 建议应该使用99%。然而这样设置的话确实可以大量减少“误判”,但是却会产生更多的“漏判”,结果仍然未必会让人满意。

大众在AlphaGo之后对于AI的想象都是有点像孙悟空,在菩提祖师那里混了7年,而后一夜悟道,从此速度一日千里。然而任何创新的技术都需要快速迭代、不断更新。我们对于新技术既不需要盲目追捧,也不用质疑攻击。人工智能之所以是人工的,不就是因为我们人类善于思考,可以辩证客观地看待问题吗?

数据的质量和模型都会对AI结果产生巨大的影响,这次我们来聊聊数据。 AI的判断,高度依赖于我们输入给它的“知识”,如果输入数据不够准确、不够完整,得出的判断不靠谱也在意料之中。大部分数据分析师,每天都要花费大量的时间和精力去“整”数据,无论是数据质量,还是数据的完整性,一致性都差强人意,最高精尖的工程师也要花大力气去做最基础的数据工作,AI能不能不以事小而不为,帮我们先解决了数据的事儿?

AI不是万能的,数据不是万能的,没有数据是万万不能的。我们对于世界的认识和认知,进行抽象提取,而后成为知识。数据是这一切的基础。数据失之毫厘,AI的结果差之千里。数据工程师和AI算法工程师是背靠背的一对兄弟,相辅相成,谁也离不开谁。

创办DataPipeline之初,我们以为数据的事儿比起AI,门槛没有那么高,但是适用面广,然而越做越敬畏。如果AI最终的目的是帮助人类解决各种各样的问题,那么数据就是这个大厦最坚实的基础,基础不牢,地动山摇。我们不能只要顶层的无敌视野,却不愿意为打地基付出汗水和努力。数据的工作繁杂,日复一日,各种重复,远不如AI的高大上,然而吃不饱肚子,怎么追求精神上的富足?

回过头来看沃森的误判,病人有严重的出血症状,这个重要的信息,这条数据,究竟在哪个环节被“丢”掉了?

PS.添加DataPipeline君微信:datapipeline2018,拉你进技术讨论群。

DataPipeline创始人&CEO 陈诚:沃森与AI的更多相关文章

  1. IBM沃森会成为第一个被抛弃的AI技术吗?

    作者|William Vorhies 译者|姚佳灵 编辑|Debra 导读:IBM 的沃森问答机(Question Answering Machine,简称 QAM),因 2011 年参加综艺节目&l ...

  2. IBM的人工智能“沃森”首次确诊罕见白血病,只用了10分钟!

    患者为一名60岁的女性,最初根据诊断结果,显示她患了急髓白血病.但在经历各种疗法后,效果并不明显. 根据东大医学院研究人员Arinobu Tojo的说法,他们利用Watson系统来对此病人进行诊断.系 ...

  3. 沃森Mysql数据库修复工具

    华信Mysql数据库修复程序是由北京华信数据恢复中心独立研发.主要针对Mysql数据库损坏的恢复. 本程序可用于因为各种误操作而导致数据丢失的恢复,以及因为断电.陈列损坏.硬盘坏道等各种原因导致数据库 ...

  4. DataPipeline成功入选微软加速器 企业创新力获业界专家认可

    近日,微软加速器•北京公布最终入选的第13期创新企业名单.作为国内领先的“iPaaS+AI”一站式数据融合服务提供商DataPipeline,历经多轮角逐,在上千家企业激烈竞争中,成功入选. 高手过招 ...

  5. DataPipeline加入Linux基金会下OpenMessaging社区

    近日,国内领先的“iPaaS+AI”一站式大数据融合服务提供商DataPipeline宣布加入Linux基金会旗下OpenMessaging开源社区,将与OpenMessaging开源社区其他成员阿里 ...

  6. 【转帖】PowerPC架构:IBM的一座金矿

    PowerPC架构:IBM的一座金矿 https://www.eefocus.com/mcu-dsp/365599 <处理器史话>之十五 2016-07-15 14:01 作者:付丽华预计 ...

  7. AI产品经理成长路

    AI产品经理成长路 https://www.jianshu.com/p/4b98314ad3c0 以下都是自己平时知识的一些总结,只是一些个人的愚见,下面出现的公司.书籍.视频.网站都是自己看过体验过 ...

  8. 2050年这些职业将逐渐被AI(人工智能)取代

    耳熟能详的人工智能   深蓝Deep Blue是美国IBM公司生产的一台超级国际象棋电脑,重1270公斤,有32个大脑(微处理器),每秒钟可以计算2亿步."深蓝”输入了一百多年来优秀棋手的对 ...

  9. DataPipeline丨DataOps理念与设计原则

    作者:DataPipeline CEO 陈诚 上周我们探讨了数据的「资产负债表」与「现状」,期间抛给大家一个问题:如果我们制作一个企业的“数据资产负债表”,到底会有多少数据是企业真正的资产? 数据出现 ...

随机推荐

  1. Web前后端分离

    第一篇博客:见谅 用自己的通俗语言讲web工程的前后端分离: 只是从自己的角度去分析,我眼中的前后端分离(可能不对) 首先要明白我们服务器和浏览器之前传输和接受的是什么: 静态文件(html,css, ...

  2. 使用Nexus3构建Docker私有镜像仓库

    一.安装Nexus3 Nexus3是Sonatype提供的仓库管理平台,Nuexus Repository OSS3能够支持Maven.npm.Docker.YUM.Helm等格式数据的存储和发布:并 ...

  3. 第一次上机,HTML静态网页的开发

    <html> <head> <title>第一次上级,cyy</title> </head> <body> <h3 ali ...

  4. 数字信号处理专题(3)——FFT运算初探

    一.前言 FFT运算是目前最常用的信号频谱分析算法.在本科学习数字信号处理这门课时一直在想:学这些东西有啥用?公式推来推去的,有实用价值么?到了研究生后期才知道,广义上的数字信号处理无处不在:手机等各 ...

  5. 总结Java常用到的六个加密技术和代码

    加密,是以某种特殊的算法改变原有的信息数据,使得未授权的用户即使获得了已加密的信息,但因不知解密的方法,仍然无法了解信息的内容.大体上分为双向加密和单向加密,而双向加密又分为对称加密和非对称加密(有些 ...

  6. 【Git之旅】1.Git常用命令

    1.创建初始化版本库 git init 2.将文件添加到版本库中 git add index.html (添加到暂存区) git add . 命令让Git把当前目录及目录中的文件都添加到版本库里 gi ...

  7. 【python3基础】相对路径,‘/’,‘./’,‘../’

    python3相对路径 “/” 前有没有 “.” ,有几个“.”,意思完全不一样. “/”:表示根目录,在windows系统下表示某个盘的根目录,如“E:\”: “./”:表示当前目录:(表示当前目录 ...

  8. Vue.js-02:第二章 - 常见的指令的使用

    一.前言 在上一章中,我们了解了一些在使用 Vue 进行开发中经常会遇到的基础概念,与传统的前端开发不同,Vue 可以使我们不必再使用 JavaScript 去操作 DOM 元素(还是可以用,但是极度 ...

  9. springboot~application.properties和application.yml的使用

    在springboot框架里进行项目开始时,我们在resource文件夹里可以存放配置文件,而格式可以有两种,properties和yml,前者是扁平的k/v格式,而后者是yml的树型结构,我们建议使 ...

  10. 使用 ASP.NET Core MVC 创建 Web API(四)

    使用 ASP.NET Core MVC 创建 Web API 使用 ASP.NET Core MVC 创建 Web API(一) 使用 ASP.NET Core MVC 创建 Web API(二) 使 ...