转自– Warald (Email: iamxiaoning@gmail.com)
博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald

开头:如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章。Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作、读什么专业、需要什么样的技能,欢迎提问、评论、分享,我会在下面的博文中选择回复。

什么是数据科学(Data Science)?

随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。

数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(data driven decision making)。Warald这里以大家都熟悉的超市购物作为例子,来说几个Data Science的应用。

比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。- 这个叫Predictive Analytics:分析数据来预测未来可能发生的事情。

超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low sodium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。- 这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。

情人节当天,超市断定避孕套需求很大,急匆匆跑去买套套的都是有刚需的,直接涨价20%;情人节完事,避孕套价钱回归正常,但是事后避孕药涨价20%。就算你发现涨价了,也只能乖乖付钱,否则就当爹养娃去。超市最大化了自己的利润。-这个叫Prescriptive Analytics – 分析数据来找出最佳措施、取得最优化的结果。

以上三个英文名字,不是我原创,是采用INFORMS组织的。例子当然是我设计的:)

在美国的各位,相信你周围的超市,应该还没做到这么“贴心”、这么精明。目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(英文叫flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如 5%),大部分直接成了垃圾。

随着analytics/data science的迅速发展,我描述的场景,正在被逐步被实现。这其中名气最大的当属Target(美国一家大零售商)的analytics team,他们分析客户消费行为的变化做判断,比如猜测某些顾客很可能怀孕了就往她们家里邮寄孕妇和婴儿产品的广告,顾客被吸引到target购买这些产品的同时,也会买其他东西,Target就赚钱了。但是这也带来的一个意想不到的结果:某个早孕的teenager被盯上了,而她的父母是在不停收到target广告之后才意识到女儿怀孕!Target比父母知道的更早!这个意外的故事让Target的统计师Andrew
Pole名声鹊起,他目前的team得以迅速扩充,已经有30+个人在美国、30+个人在印度 – 嗯,如果公司不扩充他的team,不给他更好的职位的话,外面有无数公司会哄抢他。And yes, he is also hiring,对在明尼苏达就业感兴趣的同学可以去LinkedIn加他,此人对所有connect请求,来着不拒。如果你无法直接加他,那么你需要加入他参加的GROUP,然后就可以直接加他了。

Warald很留意美国工业界动态,以前就在博客里举过一个很好的 data science例子,一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social media、传统媒体,到底应该把钱投入到那里会带来最大的回报?详情可以参考我的文章《[美国就业机会]
Marketing is the next big money sector in technology, 需要统计分析+软件编程人才
》。

至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。

另外,data science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。Warald觉得,只要某个职业的本质上是分析数量较大、不太规整的数据 ,crunch the numbers to support decision making,那就是data science;从事这类工作的人,就是data scientist,不管你的具体job title是啥。

那不同行业不同公司都招聘什么背景的数据科学家Data Scientist?Data Science/Analytics在不同的应用领域,对求职者来说到底有什么不同?请阅读《美国哪些公司招聘Data
Scientist?看重数据科学家什么方面的背景?
》。

现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?的更多相关文章

  1. 【转】最近很火的 Safe Area 到底是什么

    iOS 7 之后苹果给 UIViewController 引入了 topLayoutGuide 和 bottomLayoutGuide 两个属性来描述不希望被透明的状态栏或者导航栏遮挡的最高位置(st ...

  2. python和数据科学(Anaconda)

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...

  3. Python和数据科学的起步指南

    http://python.jobbole.com/80853/ Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在 ...

  4. 做Data Mining,其实大部分时间都花在清洗数据

    做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50  51CTO 原文  http://bigdata.51cto.com/art/201612/52 ...

  5. 计算机保研,maybe this is all you need(普通双非学子上岸浙大工程师数据科学项目)

    写在前面 9.28接收了拟录取通知,也终究是尘埃落定了,我人生的又一个阶段也终于结束.面对最终录取结果,或多或少会有所遗憾,但也还是基本达到了预期的目标了. 作为在今年严峻的保研形势下幸存的我,一直想 ...

  6. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?

    本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...

  7. Kaggle泰坦尼克数据科学解决方案

    原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions --------------------------- ...

  8. (数据科学学习手札50)基于Python的网络数据采集-selenium篇(上)

    一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...

  9. [数据科学] 从text, json文件中提取数据

    文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/tex ...

随机推荐

  1. Docker Mysql主从同步配置搭建Demo

    进行Docker操作前,先建立目录,我的路径是d:/docker/mysql,目录结构如下: --mysql --master --data --conf --my.cnf --slaver --da ...

  2. 梅森素数 判定总结 - Lucas-Lehmer算法 & Miller-rabin算法

    梅森素数 定义: if m是一个正整数 and 2^m-1是一个素数 then m是素数 if m是一个正整数 and m是一个素数 then M(m)=2^m-1被称为第m个梅森数 if p是一个素 ...

  3. cps/trampoline

    eopl 第五.六两章谈的就是这个问题. 我写了一个 python 版本的程序,先挖个坑,然后等彻底看完再补上. #!/usr/bin/env python # -*- coding: utf-8 - ...

  4. SpringBoot创建定时任务

    之前总结过spring+quartz实现定时任务的整合http://www.cnblogs.com/gdpuzxs/p/6663725.html,而springboot创建定时任务则是相当简单. (1 ...

  5. vue2.0--vue-router路由

    一.vue-router如何进行参数传递 1.name  $route.name 通过在路由router/index.js中配置路由时定义的name属性来传递 ① 有一个页面components/he ...

  6. Mercurial的使用心得

    本文发表地址:http://www.xiabingbao.com/mercurial/2015/01/22/mercurial-understanding/ 本人接触版本控制的历史 在很久很久以前,我 ...

  7. 数据库原理及应用-用户接口及SQL查询语言(Query Language)

    2018-02-07 20:41:39 一.DBMS的用户接口 查询语言 访问DBMS的访问工具(GUI) API 相关类库 二.SQL语言 SQL语言可以细分为四种: 1.Data Definiti ...

  8. Java 类的构造器的调用顺序

    规则如下: 对于一个复杂的对象,构建器的调用遵照下面的顺序: (1) 调用父类构建器.这个步骤会不断重复下去,首先得到构建的是分级结构的根部,然后是下一个子类,等等.直到抵达最深一层的子类. (2) ...

  9. Python 脚本注册为Windows Service

    这部分内容就如同标题所讲的,其他的也不说了,直接上代码吧 需要说明的是,此代码在我的Win10 下可以正常使用,而在windows server 2008没有运行成功. 如果出现拒绝访问的错误,请使用 ...

  10. Hugepages,hugetlb_shm_group与ORA-27125

    Hugepages,hugetlb_shm_group与ORA-27125 转载:http://www.eygle.com/archives/2011/12/hugepageshugetl.html ...