现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?
转自– Warald (Email: iamxiaoning@gmail.com)
博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald
开头:如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章。Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作、读什么专业、需要什么样的技能,欢迎提问、评论、分享,我会在下面的博文中选择回复。
什么是数据科学(Data Science)?
随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。
数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(data driven decision making)。Warald这里以大家都熟悉的超市购物作为例子,来说几个Data Science的应用。
比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。- 这个叫Predictive Analytics:分析数据来预测未来可能发生的事情。
超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low sodium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。- 这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。
情人节当天,超市断定避孕套需求很大,急匆匆跑去买套套的都是有刚需的,直接涨价20%;情人节完事,避孕套价钱回归正常,但是事后避孕药涨价20%。就算你发现涨价了,也只能乖乖付钱,否则就当爹养娃去。超市最大化了自己的利润。-这个叫Prescriptive Analytics – 分析数据来找出最佳措施、取得最优化的结果。
以上三个英文名字,不是我原创,是采用INFORMS组织的。例子当然是我设计的:)
在美国的各位,相信你周围的超市,应该还没做到这么“贴心”、这么精明。目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(英文叫flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如 5%),大部分直接成了垃圾。
随着analytics/data science的迅速发展,我描述的场景,正在被逐步被实现。这其中名气最大的当属Target(美国一家大零售商)的analytics team,他们分析客户消费行为的变化做判断,比如猜测某些顾客很可能怀孕了就往她们家里邮寄孕妇和婴儿产品的广告,顾客被吸引到target购买这些产品的同时,也会买其他东西,Target就赚钱了。但是这也带来的一个意想不到的结果:某个早孕的teenager被盯上了,而她的父母是在不停收到target广告之后才意识到女儿怀孕!Target比父母知道的更早!这个意外的故事让Target的统计师Andrew
Pole名声鹊起,他目前的team得以迅速扩充,已经有30+个人在美国、30+个人在印度 – 嗯,如果公司不扩充他的team,不给他更好的职位的话,外面有无数公司会哄抢他。And yes, he is also hiring,对在明尼苏达就业感兴趣的同学可以去LinkedIn加他,此人对所有connect请求,来着不拒。如果你无法直接加他,那么你需要加入他参加的GROUP,然后就可以直接加他了。
Warald很留意美国工业界动态,以前就在博客里举过一个很好的 data science例子,一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social media、传统媒体,到底应该把钱投入到那里会带来最大的回报?详情可以参考我的文章《[美国就业机会]
Marketing is the next big money sector in technology, 需要统计分析+软件编程人才》。
至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。
另外,data science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。Warald觉得,只要某个职业的本质上是分析数量较大、不太规整的数据 ,crunch the numbers to support decision making,那就是data science;从事这类工作的人,就是data scientist,不管你的具体job title是啥。
那不同行业不同公司都招聘什么背景的数据科学家Data Scientist?Data Science/Analytics在不同的应用领域,对求职者来说到底有什么不同?请阅读《美国哪些公司招聘Data
Scientist?看重数据科学家什么方面的背景?》。
现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?的更多相关文章
- 【转】最近很火的 Safe Area 到底是什么
iOS 7 之后苹果给 UIViewController 引入了 topLayoutGuide 和 bottomLayoutGuide 两个属性来描述不希望被透明的状态栏或者导航栏遮挡的最高位置(st ...
- python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
- Python和数据科学的起步指南
http://python.jobbole.com/80853/ Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在 ...
- 做Data Mining,其实大部分时间都花在清洗数据
做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50 51CTO 原文 http://bigdata.51cto.com/art/201612/52 ...
- 计算机保研,maybe this is all you need(普通双非学子上岸浙大工程师数据科学项目)
写在前面 9.28接收了拟录取通知,也终究是尘埃落定了,我人生的又一个阶段也终于结束.面对最终录取结果,或多或少会有所遗憾,但也还是基本达到了预期的目标了. 作为在今年严峻的保研形势下幸存的我,一直想 ...
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
- Kaggle泰坦尼克数据科学解决方案
原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions --------------------------- ...
- (数据科学学习手札50)基于Python的网络数据采集-selenium篇(上)
一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
- [数据科学] 从text, json文件中提取数据
文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/tex ...
随机推荐
- Chrome好用的插件:WhatRuns 查看网站使用的技术
Chrome好用的插件:WhatRuns 查看网站使用的技术 这是一款免费的Chrome扩展程序,使用很简单. chrome安装这个插件之后,打开要检测的网站,然后点击WhatRuns 的图标,就开始 ...
- Eclipse安卓项目导入android.support.design报错的解决办法
导入android.support.design出错:1.项目除了需要依赖appcompat_v7包外还要design包2.design包就是在安卓sdk下Extras中的android.suppor ...
- Java循环跳转语句之 break
生活中,我们经常会因为某些原因中断既定的任务安排.如在参加 10000 米长跑时,才跑了 500 米就由于体力不支,需要退出比赛.在 Java 中,我们可以使用 break 语句退出指定的循环,直接执 ...
- webstorm拉取git代码
在webstorm中VCS → git → clone → url就是你的git代码地址,parent Directory(你要放到的目录),Directiory Name(起一个项目名称)
- PHP对象的使用,什么时候可以用中括号[], 什么时候可以用箭头->
$orderTPLMessage = (object)array( 'touser' => '这里填open id', 'template_id' => 'oQDOldy7q6CdaYw2 ...
- Dapper 条件语句(Where) 中参数使用
public static List<ECInput> GetECInputList(DateTime beginDate,DateTime endDate,string[] barcod ...
- easyui datagrid 没有记录
datagrid返回记录为0时显示"没有记录" datagrid 插件编写 <script> var emptyview = $.extend({},$.fn.data ...
- [转]通过rsync+inotify-tools+ssh实现触发式远程实时同步
文件的同步镜像在很多地方都需要用到,因此rsync这款免费软件得到了广泛的应用,包括在Windows平台上,都已经有了支持rsync的“cwRsyncServer”. 但是,我们一般都是通过结合cro ...
- http协议与soap协议区别
- 学习JVM
所谓虚拟机,就是一台虚拟的机器.它是一款软件,用来执行一系列虚拟计算机指令,大体上虚拟机可以分为系统虚拟机和程序虚拟机,大名鼎鼎的Visual Box.VMware就属于系统虚拟机,他们完全是对物理计 ...