转自– Warald (Email: iamxiaoning@gmail.com)
博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald

开头:如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章。Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作、读什么专业、需要什么样的技能,欢迎提问、评论、分享,我会在下面的博文中选择回复。

什么是数据科学(Data Science)?

随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。

数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(data driven decision making)。Warald这里以大家都熟悉的超市购物作为例子,来说几个Data Science的应用。

比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。- 这个叫Predictive Analytics:分析数据来预测未来可能发生的事情。

超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low sodium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。- 这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。

情人节当天,超市断定避孕套需求很大,急匆匆跑去买套套的都是有刚需的,直接涨价20%;情人节完事,避孕套价钱回归正常,但是事后避孕药涨价20%。就算你发现涨价了,也只能乖乖付钱,否则就当爹养娃去。超市最大化了自己的利润。-这个叫Prescriptive Analytics – 分析数据来找出最佳措施、取得最优化的结果。

以上三个英文名字,不是我原创,是采用INFORMS组织的。例子当然是我设计的:)

在美国的各位,相信你周围的超市,应该还没做到这么“贴心”、这么精明。目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(英文叫flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如 5%),大部分直接成了垃圾。

随着analytics/data science的迅速发展,我描述的场景,正在被逐步被实现。这其中名气最大的当属Target(美国一家大零售商)的analytics team,他们分析客户消费行为的变化做判断,比如猜测某些顾客很可能怀孕了就往她们家里邮寄孕妇和婴儿产品的广告,顾客被吸引到target购买这些产品的同时,也会买其他东西,Target就赚钱了。但是这也带来的一个意想不到的结果:某个早孕的teenager被盯上了,而她的父母是在不停收到target广告之后才意识到女儿怀孕!Target比父母知道的更早!这个意外的故事让Target的统计师Andrew
Pole名声鹊起,他目前的team得以迅速扩充,已经有30+个人在美国、30+个人在印度 – 嗯,如果公司不扩充他的team,不给他更好的职位的话,外面有无数公司会哄抢他。And yes, he is also hiring,对在明尼苏达就业感兴趣的同学可以去LinkedIn加他,此人对所有connect请求,来着不拒。如果你无法直接加他,那么你需要加入他参加的GROUP,然后就可以直接加他了。

Warald很留意美国工业界动态,以前就在博客里举过一个很好的 data science例子,一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social media、传统媒体,到底应该把钱投入到那里会带来最大的回报?详情可以参考我的文章《[美国就业机会]
Marketing is the next big money sector in technology, 需要统计分析+软件编程人才
》。

至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。

另外,data science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。Warald觉得,只要某个职业的本质上是分析数量较大、不太规整的数据 ,crunch the numbers to support decision making,那就是data science;从事这类工作的人,就是data scientist,不管你的具体job title是啥。

那不同行业不同公司都招聘什么背景的数据科学家Data Scientist?Data Science/Analytics在不同的应用领域,对求职者来说到底有什么不同?请阅读《美国哪些公司招聘Data
Scientist?看重数据科学家什么方面的背景?
》。

现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?的更多相关文章

  1. 【转】最近很火的 Safe Area 到底是什么

    iOS 7 之后苹果给 UIViewController 引入了 topLayoutGuide 和 bottomLayoutGuide 两个属性来描述不希望被透明的状态栏或者导航栏遮挡的最高位置(st ...

  2. python和数据科学(Anaconda)

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...

  3. Python和数据科学的起步指南

    http://python.jobbole.com/80853/ Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在 ...

  4. 做Data Mining,其实大部分时间都花在清洗数据

    做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50  51CTO 原文  http://bigdata.51cto.com/art/201612/52 ...

  5. 计算机保研,maybe this is all you need(普通双非学子上岸浙大工程师数据科学项目)

    写在前面 9.28接收了拟录取通知,也终究是尘埃落定了,我人生的又一个阶段也终于结束.面对最终录取结果,或多或少会有所遗憾,但也还是基本达到了预期的目标了. 作为在今年严峻的保研形势下幸存的我,一直想 ...

  6. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?

    本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...

  7. Kaggle泰坦尼克数据科学解决方案

    原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions --------------------------- ...

  8. (数据科学学习手札50)基于Python的网络数据采集-selenium篇(上)

    一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...

  9. [数据科学] 从text, json文件中提取数据

    文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/tex ...

随机推荐

  1. MCM写作

    MCM 写作 引言的写作 对赛题的解读. 对现有研究成果的松树与评论 对解题思路和主要方法进行简介 引言第一句话是最重要的,应该激发读者阅读兴趣,应该浅显易懂,不用或者少用数学公式 赛题选定以后要首先 ...

  2. apache配置ssl

    1.确认是否安装ssl模块 是否有mod_ssl.so文件   2.生成证书和密钥   linux下 步骤1:生成密钥 命令:openssl genrsa 1024 > server.key 说 ...

  3. C和C#两种方式实现邮件的简单接收

    本文的主要内容是通过两种方式实现简单邮件的接收,一种方式是通过C语言实现,另一种是通过C#实现的, 两种方式在实现上有许多的不同之处,但是本质上都是一样的. 一,C语言实现方式 C语言接收邮件的步骤: ...

  4. mac 下测试各种IE版本

    背景 作为前端开发,在谈到兼容性时不得不谈到IE浏览器,那么,如果在mac上该怎么测试各种版本的IE呢 方法 1. 下载VirtualBox虚拟器 2. 下载安装了对应版本的windows系统,htt ...

  5. 【nginx】一台nginx服务器多域名配置

    Nginx 多域名配置 nginx绑定多个域名可又把多个域名规则写一个配置文件里,也可又分别建立多个域名配置文件,我一般为了管理方便,每个域名建一个文件,有些同类域名也可又写在一个总的配置文件里.一. ...

  6. Linux CentOS 7 安装字体库 & 中文字体

    前言 报表中发现有中文乱码和中文字体不整齐(重叠)的情况,首先考虑的就是操作系统是否有中文字体,在CentOS 7中发现输入命令查看字体列表是提示命令无效: 如上图可以看出,不仅没有中文字体,连字体库 ...

  7. Centos服务器被挂马的一次抓马经历

    转载:http://blog.csdn.net/qq_21439971/article/details/54631440 今天早上五点,收到监控宝的警告短信,说是网站M无法访问了.睡的正香,再说网站所 ...

  8. Python绘图技巧

    转自:https://www.cnblogs.com/zhizhan/p/5615947.html Python--matplotlib绘图可视化知识点整理 强烈推荐ipython 原文:http:/ ...

  9. HDU 4099 大数+Trie

    Revenge of Fibonacci Time Limit: 10000/5000 MS (Java/Others)    Memory Limit: 204800/204800 K (Java/ ...

  10. 简单的HelloWorld

    简单的HelloWorld 步骤: -加入jar包 -在web.xml中配置DispatcherServlet -加入Spring MVC的配置文件 新建文件springmvc.xml: -编写处理请 ...