数据科学VS机器学习

数据科学是一个范围很广的学科。机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据（被用作训练集）来调整模型或算法的参数。这包含了许多的技术，比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类，该技术是在没有任何先验知识或训练集的情况下检测 cluster 和 cluster 结构，从而帮助分类算法。这种情况需要人来标记 cluster。一些技术是混合的，比如半监督分类。一些模式检测或密度评估技术适合机器学习。数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理（调查数据可能就是手动收集，临床试验涉及到专业类型的小数据），它可能与「学习」没有任何关系。但主要的区别在于数据科学覆盖整个数据处理，并非只是算法的或统计类分支。细说之，数据科学也包括：

数据集成（data integration）
分布式架构（distributed architecture）
自动机器学习（automating machine learning）
数据可视化（data visualization）
dashboards 和 BI
数据工程（data engineering）
产品模式中的部署（deployment in production mode）
自动的、数据驱动的决策（automated, data-driven decisions）

当然，在许多公司内数据科学家只专注这些流程中的一个。

数据科学家类型

详细地了解数据科学家的类型, 可参考：Six categories of Data Scientists，对于数据科学与其它分析学科的对比，参见： 16 analytic disciplines compared to data science

最近(2016年8月)Ajit Jaokar讨论了A型(分析)和B型(建造者)数据科学家的区别：

A 型数据科学家：A指Analytics，能够很好地编写操作数据的代码，但并不一定是一个专家。A 型数据科学家可能是一个实验设计、预测、建模、统计推理或统计学方面的事情的专家。在谷歌，A 型数据科学家被称为统计学家、定量分析师、决策支持工程开发分析师，也有一些被称为数据科学家。
B 型数据科学家：B指Builder, B 型数据科学家和 A 型数据科学家具有相同的背景，但他们还是很强的程序员、甚至经验丰富的软件工程师。B 型数据科学家主要关注在生产环境中使用数据。他们构建能与用户进行交互的模型，通常是提供推荐（产品、可能认识的人、广告、电影、搜索结果等）。

而对于业务处理优化，作者将其分成了 ABCD 四个方向，其中：

A 表示：分析科学（analytics science）
B 表示：业务科学（business science）
C表示：计算机科学（computer science）
D表示：数据科学（data science）

数据科学可能会涉及到编程或数学实践，但也可能不会涉及到。你可以参考这篇文章了解 ”高端和低端的数据科学“ 的差异。在一家创业公司，数据科学家通常要做很多类型的工作，其扮演的工作角色可能包括：管理执行者、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师（做预测建模等等）和开发人员。

虽然数据科学家常常被看作是经验丰富的 R、Python、SQL、Hadoop 程序员，而且精通统计学，但这只不过是冰山一角而已——人们对于数据科学家的这些看法不过是来自于重在数据科学的部分元素的数据培训项目而已。但正如一位实验室技术人员也可以称自己为物理学家一样，真正的物理学家远不止于此，而且他们的专业领域也是非常多样化的：天文学、数学物理、核物理、力学、电气工程、信号处理（这也是数据科学的一个领域）等等许多。数据科学也是一样，包含的领域有：生物信息学、信息技术、模拟和量化控制、计算金融、流行病学、工业工程、甚至数论。

翻译太费劲，看参考地址下的原文吧

参考：

https://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

数据科学VS机器学习的更多相关文章

Python数据科学手册-机器学习：朴素贝叶斯分类
朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝 ...
Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
Python数据科学手册-机器学习: 主成分分析
PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值 ...
Python数据科学手册-机器学习: 决策树与随机森林
无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树 ...
Python数据科学手册-机器学习: 支持向量机
support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于 ...
Python数据科学手册-机器学习：线性回归
朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点. 简单线性回归将数据拟合成一条直线. y = ax + b , a 是斜率, b是直线截距原始数据如下: 使用LinearRegr ...
Python数据科学手册-机器学习之特征工程
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数 ...

随机推荐

Oracle流程控制语句
1.选择语句 1.1 IF...THEN...END IF语句 DECLARE MY_AGE INT; IF MY_AGE IS NULL THEN DBMS_OUTPUT.put_line('AGE ...
2016ICPC-大连 To begin or not to begin （简单思维）
A box contains black balls and a single red ball. Alice and Bob draw balls from this box without rep ...
REST是什么？
REST -- REpresentational State Transfer 直接翻译:表现层状态转移. @Ivony 老师的一句话概括很精辟: 用URL定位资源,用HTTP动词(GET,POS ...
【翻译】Context should go away for Go 2
2017/08/06 每次blog.golang.org更新博客,我都迫不及待去读一下:最新的一篇, Contributors Summit,记录了Go贡献者们的一些讨论.我读到一句话,让我感觉得 ...
12.2 关闭DLM 自动收集统计信息 (SCM0)ORA-00600之[ksliwat: bad wait time]
一.报错日志 db_alert ORA-: ??????, ??: [ksliwat: bad wait time], [], [], [], [], [], [], [], [], [], [], ...
sticky footer 和 flex布局的原理
Sticky footers设计是最古老和最常见的效果之一,大多数人都曾经经历过.它可以概括如下:如果页面内容不够长的时候,页脚块粘贴在视窗底部:如果内容足够长时,页脚块会被内容向下推送. 一.使用f ...
sed 等相关的复习
sed相打印两行之间的内容: sed -n '/111/,/aad/p' fuxi.txt grep -n ".*" fuxi.txt sed -n '2,9'p fuxi.txt ...
java-类与类，类与接口，接口与接口的关系
1.类与类: - 继承关系,只能单继承,可以多层继承. 2.类与接口: - 实现关系,可以单实现,也可以多实现. - 并且还可以在继承一个类的同时实现多个接口. - * 例:class Demo ex ...
manjaro初体验
manjaro Linux是https://distrowatch.com/网站上排名第一的Linux分支. https://manjaro.org/ 选择,下载,打开主页下载页:https://ma ...
MySQL数据库安装和介绍
一.概述 1.什么是数据库 ? 答:数据的仓库,称其为数据库 2.什么是 MySQL.Oracle.SQLite.Access.MS SQL Server等 ? 答:他们均是一种软件,都有两个主要的功 ...

数据科学VS机器学习

数据科学VS机器学习的更多相关文章

随机推荐

热门专题