[No00002E]关于大数据,你不知道的6个迷思
还是那个观点:计算机,编程语言,互联网,大数据等等都只是工具!
导语:看过美剧《纸牌屋》没?知道这部"白宫甄嬛传"为什么会火吗?靠的是大!数!据!
过去两年,在 Netflix 以行为分析为基础打造的美剧 House of Cards 《纸牌屋》爆红的同时,大数据也成了现代企业经营的显学。无论是消费、金融、电信、交通,甚至是政治、慈善,所有的研讨会上,一定可以看到大数据的身影。似乎人类组织有史以来的行销、管理等问题,有了 Data,全部都可以解决。
事情当然没有那么简单。就像任何新科技一样,大数据并不是万灵丹。要善用它,必须要从对的观念出发。今天就跟大家聊聊关于 Big Data,我最常听到的 6 个迷思。
1. 大数据是新时代的新玩意
事实上,数据分析一点也不新。早从数百年前的启蒙时代,学者们便已开始遵循科学方法,一步步拆解事物形成背后的原因。科学家先观察,取得并分析数据,归纳出假说,然后再经过不断实证,逐渐形成定律。因此我们说的大数据,充其量只是科学方法的应用。跟过去的科学家相比,现代大数据更多仰赖机器去做观察与取得数据的工作,以求更全面、更即时的资料收集。但后续的推论、归纳工作,还是需要人为的判断。
2. 100TB 以上才叫大数据
数据的大小,事实上没有明确的界线。更重要的,数据的大小,不一定有意义。数据大,也不代表一定能做出準确的预测 ─ 假设你拥有地球 70 亿人口的姓名、性别、生日、身高、体重、肤色、视力,以及他们的上网行为等种种数据,如果题目是要预测他们明年的收入分布,这个庞大的资料库,恐怕还是无法帮上你什么。所以数据在精不在多,重点是要达成的任务,不是储存的数量。
3. 数据非常客观
采集数据的软硬件,是人为设计的,因此不可能做到绝对的客观。手机停留在某个画面,就代表你在欣赏这个内容吗?很难说,或许你只是在跟旁边的朋友聊天。对某个发文点赞,就代表你真心喜欢这则资讯吗?也很难说,说不定只是喜欢发文的人,或是手滑不小心按到。真实世界,永远有测不准的环节,因此设计数据采集软件的人,很难绝对客观的去记录使用者行为,所以产生出来的数据,也很难是完全客观的。对于大数据,你该有的认知是它有相当、相对的客观性,但不可能绝对准确。
4. 数据可以告诉你不知道的内幕
就像字面显现的,数据只能告诉你不知道的数据。但它究竟代表什么样的内幕,必须要靠归纳者自行去解读。举例来说,分析你的 App 使用者资料后,发现 21-30 岁女性族群占比最大,这可能代表着你的 App 对这种人最有吸引力,但也可能代表当初推广团队在发广告时,比较针对这样的族群。究竟事实是什么?往往需要更进一步的综合比较、实验分析,才能逼近。
5. 大数据是资讯部门的问题
大数据的收集与储存,的确可以归类为资讯部门的业务。但定义该收集什么,如何收集,收集后该如何应用,绝对是业务主导部门该负责的。要求 IT 部门把大数据做好,就好像要求财务部门提昇公司获利一样,是本末倒置的。
6. 大数据会改变一切,不懂数据的人将会被淘汰
数据的重点不是数据,而是解读与预测,也就是用数据验证人类的行为模式,用以提升产品与服务的设计,与潜在、现有客户沟通的方法与内容。因此,懂数据不是重点,懂人才是。在全面连网的世界,数据将会越来越泛滥,懂数据收集管理的人也将会越来越普遍。但无论科技如何发展,懂人的人,恐怕永远是少数。人感性、容易受到环境影响,因此难以预期。
所以,大数据是社会科学重要的进展,但企业要精准抓住未来,经理人要拥有更好的决断力,还是要基于对不同人、不同性的理解,而不仅是科技工具的使用而已。大数据不是万灵丹,它只是涡轮加速器,至于方向盘,仍旧掌握在你的手上。
[No00002E]关于大数据,你不知道的6个迷思的更多相关文章
- PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)
100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...
- PayPal 高级工程总监:读完这 100 篇文献,就能成大数据高手
原文地址 开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用:另一方面,开源也给大数据技术构 ...
- java 与大数据学习较好的网站
C# C#中 Thread,Task,Async/Await,IAsyncResult 的那些事儿!https://www.cnblogs.com/doforfuture/p/6293926.html ...
- 阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...
- 2019上海爱奇艺大数据Java实习生-面试记录
目录 一轮 电话面试 二轮 代码笔试 三轮 技术面试 总结 附:电话面试问题点解惑 补充:面试未通过 一轮 电话面试 2019.04.28 16:21 [w]:面试官,[m]:我,下面的内容来自电话录 ...
- 分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势
> 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向"大数据时代".而我们作为大数据的践行者,在这个"多智时代"如何才能跟上大数据的潮流, ...
- 一篇文章看懂TPCx-BB(大数据基准测试工具)源码
TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能.其中一些场景还用到了机器学习算法(聚类.线性回归等).为了 ...
- CRL快速开发框架系列教程十一(大数据分库分表解决方案)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
- 分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节
1:MSSQL SQL语法篇: BULK INSERT [ database_name . [ schema_name ] . | schema_name . ] [ table_name | vie ...
随机推荐
- iOS UISlider的使用
UISlider是一个方便的控件,让用户能够以可视化的方式设置指定范围内的值. 和按钮一样,滑块也能响应事件,还可像文本框一样被读取.如果希望用户对滑块的调整立刻影响应用程序,则需要让他触发操作. 下 ...
- Sharepoint学习笔记—习题系列--70-576习题解析 -(Q16-Q18)
Question 16 You are designing a SharePoint 2010 solution to manage statements of work. You need to d ...
- OC笔记
self的概念:指向了当前对象(方法的调用者) self的用途 可以利用 self -> 成员变量名 访问当前对象内部的成员变量 [self 方法名]; 调用其他对象方法或者类方法 所有继 ...
- 操作系统开发系列—13.h.延时操作
计数器的工作原理是这样的:它有一个输入频率,在PC上是1193180HZ.在每一个时钟周期(CLK cycle),计数器值会减1,当减到0时,就会触发一个输出.由于计数器是16位的,所以最大值是655 ...
- Swift开发第八篇——方法嵌套&命名空间
本篇分为两部分: 一.Swift中的方法嵌套 二.Swift中的命名空间 一.Swift中的方法嵌套 在 swift 中我们可以让方法嵌套方法,如: func appendQuery(var url: ...
- MySQL开启慢查询 总结
MYSQL慢查询配置 1. 慢查询有什么用? 它能记录下所有执行超过long_query_time时间的SQL语句, 帮你找到执行慢的SQL, 方便我们对这些SQL进行优化. 2. 如何开启慢查询? ...
- VS2015 Git 插件使用教程
VS2015 中继承了 Git 插件,再也不用下载 Github for Windows了. 从 团队-管理连接 中打开 团队资源管理器 克隆Repository 在 本地 Git 存储库下面点击 ...
- 0003 64位Oracle11gR2不能运行SQL Developer的解决方法
"应用程序开发"下的"SQL Developer"双击不可用,出现“Windows正在查找SQLDEVELOPER.BAT"的提示,如下图: 搜索博客 ...
- 大型网站的 HTTPS 实践(1):HTTPS 协议和原理
转自:http://op.baidu.com/2015/04/https-s01a01/ 1 前言 百度已经于近日上线了全站 HTTPS 的安全搜索,默认会将 HTTP 请求跳转成 HTTPS.本文重 ...
- SQL Server中字符串转化为GUID的标量函数实现
还是工作中遇到的需求,有时候和外部的系统对接,进行数据的核对功能,外部的系统有时候主键字段列数据类是UNIQUEIDENTIFER(GUID)类型的字符串格式,去除了GUID格式中的分隔符“- ...