数据科学家:神话 & 超能力持有者
一个打破神话的季节,正在降临。
我将坦诚地揭穿人们关于数据科学家所持有的惯有看法。在下文中,我将一个一个展示这些观点,宛如将一个又一个的玻璃瓶子摔碎在墙壁上一样。
关于数据科学家的神话主要是这些:
神话#1: 数据科学家们本身就是一种神奇生物,就像独角兽一样神奇叵測。
数据科学家实际上是很真实的。从人们開始进行多元统计分析、时间序列分析和运用其它核心分析方法时,他们就已经存在了。在某种程度上,假设你建立模型,并使用各种分析工具来找寻那些不显著的数据模型,那么你也许也是一位数据科学家了。
神话#2: 数据科学家门仅仅是一群稀有的“精英”理论家。
实际上,数据科学家们仅仅是那些在勤奋工作的白领们的一种。每天,他们洁净的指甲由于大量地移动来自世界各地的原始数据而污迹斑驳,这些数据须要倾倒到分析沙漏中,清洗和筛选,终于才干找到可能存在的模型。当新的数据出现时,又会再次被倒入到沙箱中,循环之前的过程。这是一项极其仔细、繁重的工作,他们并非仅仅坐在扶手椅上思考的数据哲学家。
神话#3: 数据科学家是某种新时尚,非常快就会消失。
“数据科学家”这个包罗万象的名称,已经存在很多年了,各种先进的分析工具——统计分析、数据挖掘、预測建模以及更久远的分析工具都能够归入当中。在过去的几年中,分析专家们越来越倾向于使用“数据科学家”这个名称来指代引入了新规则的不同学科的融合,比如行为分析、情感分析和图标分析——在这个数字渠道与传媒盛行的时代中,“数据科学家”便顺理成章地成为了炙手可热的宠儿。而数字科学家们的工作日程也随之日趋增多,与之相关的专业论坛和学术课程在过去几年中正以不可否认的速度增长着。眼下的招聘趋势也再次证明了这一点。这不是时尚而已。
神话#4: 数据科学家都是未任职的统计学博士或粒子物理学家。
当然,很多数据科学家第一次进行数据分析、建模还是在大学中。但非常多人之后又运用这些知识去继续学习了实质性的学科,比如,工商管理、经济学、金融和project学。您在工作领域所遇到的大多数数据科学家实际上是业务领域的专家,而不是对数学痴迷的“宽克”或者对算法狂热的的“行家”。他们仅仅是对统计建模十分精通。
神话#5: 数据科学家仅仅是长期的商业智能(BI )专家,雇主给他们一个美丽的称号来取代加薪。
当然,很多长期的BI高级用户在某种程度上就是数据科学家,他们是业务领域的专家,工作涉及了多变量分析、预測、如果建模和仿真。那些希望更深入地进入到细分、决策树分析、倾向建模、预測分析和其它数据科学技术的人也在又一次塑造自己。可是绝大多数传统的BI专家们,它们主要是专注于历史的,描写叙述性分析,他们也从来没有掩饰自己不属于数据专家。虽然如此,很多人知道如果不跟上与大数据科学相关的Hadoop,预測建模和图标分析的话,它们非常easy被行业淘汰。
神话#6: 数据科学家从不论什么意义上来说都不是科学家。
每个真正的科学家也一定是数据科学家的一种,尽管不是全部宣称自己是数据科学家的人真的名副事实上。真正的科学家必需要观測数据。假设没有精细的筛选、选择、构建、分类、分析,终于呈现数据的能力,科学家将不能把对于事实本质的调查联通起来,正如批评家所说,没有深入到数据中心的科学家不能有效地捍卫他所发现的东西。统计管理是真正的科学的基石,相同,实验控制是很多学科的标志;假设数据科学家在探索诸如人们购买习惯这种问题,运用了统计管理和实验控制来证明了他们的发现,那么他们已经是平庸而简单的数据科学家了。
神话#7数据科学家须要花哨的,昂贵的,复杂程度令人咂舌的统计学工具才干完毕他们的工作。
这绝对不是事实。从根本上来说,数据科学家的工作是去寻找隐藏的模式。他们通过友好用户可视化工具,通过自助的搜素式BI工具, 通过交互式数据开採工具,以及其它一些不须要深入掌握统计分析的就可运用的方式来完毕自己的研究。在市场上,价格划算的探索性工具BI有很多的供应商,比如IBM Cognos. 全球业务分析超级用户能够从一个植入在普通电子表格中的应用程序的模型特性中得出非凡的见解。
神话#8数据科学家不过把大量数据扔入到Hadoop集群中,然后再利用Pig and MapReduce的分布式计算,终于,令人大呼过瘾的见解就会犹如喷泉般得涌出。
欧,兄弟!数据科学家将会第一个告诉你,Hadoop仅仅是一个用于深入探索的平台。Hadoop的能力事实上与企业数据仓库、传统的数据挖掘平台以及其它的数据库内分析平台别无二样。这些可不是是什么通灵牌——大数据的精灵会开口与我们这些凡人说话呢。Hadoop和其它数据平台仅仅是一个用于分析的工作平台,数据科学家能够借助它来进行深度的数据调查。
(注:本文由OCCS软件云工厂编译,转载请注明出处。)
数据科学家:神话 & 超能力持有者的更多相关文章
- An Data-Scientist Prepares 《数据科学家的自我修养》
从今天开始,博主将用大概1000天的时间记录自己学习并成为初级数据科学家(数据分析师)的心路历程. 包括数据科学家所必需的的基础知识:数学,统计,计算机,商业,沟通能力等. 希望博主能够在2017前完 ...
- 开源来自百度商业前端数据可视化团队的超漂亮动态图表--ECharts
开源来自百度商业前端数据可视化团队的超漂亮动态图表--ECharts 本人项目中最近有需要图表的地方,偶然发现一款超级漂亮的动态图标js图表控件,分享给大家,觉得好用的就看一下.更多更漂亮的演示大家可 ...
- 蚂蚁金服首席数据科学家漆远:AI技术开放,与业界融合共创
小蚂蚁说: 11月8日,在第五届世界互联网大会-<人工智能:融合发展新机遇>论坛上,蚂蚁金服副总裁.首席数据科学家漆远认为AI具有控制风险.降本增效和提升用户体验三大作用. 11月8日,第 ...
- SparkR:数据科学家的新利器
摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题.作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Sca ...
- 【DataScience学习笔记】Coursera课程《数据科学家的工具箱》 约翰霍普金斯大学——Week3 Conceptual Issues课堂笔记
Coursera课程<数据科学家的工具箱> 约翰霍普金斯大学 Week3 Conceptual Issues Types of Questions Types of Data Scienc ...
- 数据科学家人才危机现象,是FOMO还是Silver?
数据科学家人才危机现象,是FOMO还是Silver? 数据科学家的人才短缺和薪水高涨已经达到了顶板,未来还会持续下去吗? 在过去几年中,高级分析(#大数据#分析)空间一直经历着严重的FOMO(害怕错过 ...
- 专访阿里云MVP王俊杰:开发者的超能力是用技术让世界更美好
[王俊杰:阿里云MVP,陕西创博网络科技有限公司总经理.大数据与物联网的爱好者与实践者. 8年以上互联网从业经验,曾从事军工相关仿真分析软件研发与集成.4年以上大数据系统开发经验.目前正与天水市秦州区 ...
- 一文总结数据科学家常用的Python库(下)
用于建模的Python库 我们已经到达了本文最受期待的部分 - 构建模型!这就是我们大多数人首先进入数据科学领域的原因,不是吗? 让我们通过这三个Python库探索模型构建. Scikit-learn ...
- 我们都可以把它放 Sidecar 容器中,这样微服务具备了 Super power,一种超能力
云原生时代,微服务如何演进? 原创 李响 阿里技术 2020-08-28 https://mp.weixin.qq.com/s/KQG2U8_aotDL4YFB8ee6Zw 一 微服务架构与云原 ...
随机推荐
- xhprof
#官网下载 http://pecl.php.net/package/xhprof tar zxf xhprof-0.9.2.tgz cd xhprof-0.9.2/extension/ sud ...
- Redis中各种方法的使用
①set ; i< ; i++) { // 不可以重复添加数据 client.AddItemToSet(KKey, "dong升-" + i); } client.Remov ...
- [Java]编写自己的Matrix矩阵类
用java实现一个简单的矩阵类,可以实现简单的矩阵计算功能. class Matrix 1.向量点乘 public static double dot(double[] x,double[] y) 2 ...
- discuz门户文章页面模板修改
修改内容:view.htm 1.文章标题,模板代码 <h1 class="ph">$article[title] <!--{if $article['status ...
- VMware 安装centOS6.4虚拟机以及基础环境搭建
- GitHub Android 最火开源项目Top20 GitHub 上的开源项目不胜枚举,越来越多的开源项目正在迁移到GitHub平台上。基于不要重复造轮子的原则,了解当下比较流行的Android与iOS开源项目很是必要。利用这些项目,有时能够让你达到事半功倍的效果。
1. ActionBarSherlock(推荐) ActionBarSherlock应该算得上是GitHub上最火的Android开源项目了,它是一个独立的库,通过一个API和主题,开发者就可以很方便 ...
- Uber在华从沸点到冰点 搞定这些才能继续走下去
腾讯科技 蒋栩根 5月6日报道 五一前夕,本应坐等笑看小长假带来的喜人业绩的Uber被广州市工商.交委.公安部门的联合检查当头浇了一盆冷水,也被戴上了一顶“涉嫌非法运营”的帽子.而一天前,它才与广物汽 ...
- stringstream字符串流
例题详解 題目:输入的第一行有一个数字 N 代表接下來有 N 行資料,每一行資料里有不固定個數的整數(最多 20 個,每行最大 200 個字元),請你寫一個程式將每行的总和印出來. 輸入: 3 1 2 ...
- SGU 242 Student's Morning 网络流(水
题目链接:contest=0&problem=242">点击打开链接 题意: 给定n个人,m个终点 以下n行表示每一个人能够去m个点. 每一个人仅仅能去一个点. 输出随意一个方 ...
- 送给刚刚開始学cocos2d-x引擎 移植Android的同学
刚刚開始学cocos2-x,不过依照教程把已经安了一般Android的开发环境的eclipse又一次升级到安装好cdt和ndk就花了我几十小时,差点都要放弃了. 參考博客 http://blog.cs ...