【DataScience学习笔记】Coursera课程《数据科学家的工具箱》 约翰霍普金斯大学——Week3 Conceptual Issues课堂笔记
Coursera课程《数据科学家的工具箱》 约翰霍普金斯大学
Week3 Conceptual Issues
Types of Questions
Types of Data Science Questions
- 描述性分析(Descriptive)
在没有额外的统计建模的基础上,这些描述通常没什么普遍性。
美国的人口普查就是一个描述性分析的例子。
- 探索性分析(Exploratory)
在该分析类型中,我们试着去观察数据并发现之前未知的关系,因此这种分析有利于发现新的关联,同时也有助于确定今后的数据科学项目。
- 推断分析(Inferential)
推断分析的目标是在少量观察的基础上,根据一小部分数据,将得到的信息进行归纳、外推到更大的群体。
例子:美国的空气污染控制对平均寿命的影响。
- 预测分析(Predictive)
预测分析是利用某些对象收集到的数据,去预测下次观察很可能碰到的另一个对象的值。
有一点需要注意,即使通过x预测到了y,也不能说是x导致了y。
- 因果分析(Causal)
这一分析类型就旨在了解,如果改变了一个变量的值会发生什么?这会对另一个变量的值造成怎样的改变?
实施因果分析的权威标准是,利用随机研究或随机对照试验来确认因果关系。
- 机理分析(Mechanistic)
机理分析是要去理解变量的精确变化,和导致了其它变量精确变化的变量的过程。
机理分析最常见的应用范围,可能是在物理或工程学领域,利用一些比较简单的模型,就可以描述许多操作。
What is Data?
维基百科的定义
Data are values of qualitative or quantitative variables, belonging to a set of items.
定性变量是诸如原产国、性别或治疗方法之类的东西。它们不一定是有序的,也不一定是测量值。
定量变量是诸如身高、体重和血压等的数据。它们的测量值通常是连续的,在特定范围里的是有序的。
What About Big Data?
(基本没有干货……)
Experimental Design
安利一个数据共享网站figshare
Confounding
比如说假如在某项研究中,我们统计了鞋号和识字能力。然后我们试着去发现,鞋号和识字能力之间的相关性。
可能我们确实观察到了一些相关性,因为穿小号鞋的人可能会认识少一些的字。但是我们可能忽略了一点,年龄才是导致这个相关性的真正原因。因为婴儿的鞋号非常小,识字能力也很低。再长大一点,需要更大号的鞋子,认识的字也更多,所以年龄才是真正的导致鞋号和识字能力之间相关性的混杂因素。
所以如果我们只统计鞋号和识字能力,然后去发现两个变量之间的相关性,我们可能就误入歧途了。这种情况称作混杂(Confounding)。它关注于研究可能导致相关性的其它变量。
【DataScience学习笔记】Coursera课程《数据科学家的工具箱》 约翰霍普金斯大学——Week3 Conceptual Issues课堂笔记的更多相关文章
- 【Python学习笔记】Coursera课程《Using Python to Access Web Data》 密歇根大学 Charles Severance——Week6 JSON and the REST Architecture课堂笔记
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week6 JSON and the REST Architecture 13.5 Ja ...
- 【Python学习笔记】Coursera课程《Using Python to Access Web Data 》 密歇根大学 Charles Severance——Week2 Regular Expressions课堂笔记
Coursera课程<Using Python to Access Web Data > 密歇根大学 Charles Severance Week2 Regular Expressions ...
- 【网页开发学习】Coursera课程《面向 Web 开发者的 HTML、CSS 与 Javascript》Week1课堂笔记
Coursera课程<面向 Web 开发者的 HTML.CSS 与 Javascript> Johns Hopkins University Yaakov Chaikin Week1 In ...
- 《Using Python to Access Web Data》 Week3 Networks and Sockets 课堂笔记
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week3 Networks and Sockets 12.1 Networked Te ...
- 数据科学家:神话 & 超能力持有者
一个打破神话的季节,正在降临. 我将坦诚地揭穿人们关于数据科学家所持有的惯有看法.在下文中,我将一个一个展示这些观点,宛如将一个又一个的玻璃瓶子摔碎在墙壁上一样. 关于数据 ...
- 《Using Python to Access Web Data》Week4 Programs that Surf the Web 课堂笔记
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week4 Programs that Surf the Web 12.3 Unicod ...
- 《Using Python to Access Web Data》 Week5 Web Services and XML 课堂笔记
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week5 Web Services and XML 13.1 Data on the ...
- 【DeepLearning学习笔记】Coursera课程《Neural Networks and Deep Learning》——Week2 Neural Networks Basics课堂笔记
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week2 Neural Networks Basics 2.1 ...
- 【DeepLearning学习笔记】Coursera课程《Neural Networks and Deep Learning》——Week1 Introduction to deep learning课堂笔记
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week1 Introduction to deep learn ...
随机推荐
- Delphi DBGridEH中,选中行、列、单元格
// 新增行后,默认首列 procedure TForm1.ADOQuery1AfterInsert(DataSet: TDataSet);begin with DBGridEh1 do begi ...
- JavaScript 垃圾回收总结
JavaScript 是一门具有自动垃圾收集机制的编程语言,开发人员不必关心内存分配和回收的问题. 以下是对JavaScript的垃圾收集历程总结: 离开作用域的值将被自动标记为可以回收,因此将在垃圾 ...
- RT-thread内核之互斥量
一.互斥量控制块:在include/rtdef.h中 #ifdef RT_USING_MUTEX /** * Mutual exclusion (mutex) structure */ struct ...
- 【bzoj4698】[Sdoi2008] Sandy的卡片 后缀数组
题目描述 Sandy和Sue的热衷于收集干脆面中的卡片.然而,Sue收集卡片是因为卡片上漂亮的人物形象,而Sandy则是为了积攒卡片兑换超炫的人物模型.每一张卡片都由一些数字进行标记,第i张卡片的序列 ...
- 洛谷 P1979 华容道 解题报告
P1979 华容道 题目描述 小\(B\)最近迷上了华容道,可是他总是要花很长的时间才能完成一次.于是,他想到用编程来完成华容道:给定一种局面, 华容道是否根本就无法完成,如果能完成, 最少需要多少时 ...
- bzoj2431: [HAOI2009]逆序对数列(DP)
f[i][j]前i个数有j个逆序对的数量 f[i][j]=sigma(f[i-1][j-k]){1<=k<=i} 维护一个前缀和即可 #include<iostream> #i ...
- TYVJ1423 GF和猫咪的玩具
Description: GF同学和猫咪得到了一个特别的玩具,这个玩具由n个金属环(编号为1---n),和m条绳索组成,每条绳索连接两个不同的金属环,并且长度相同.GF左手拿起金属环L,猫咪右手(或者 ...
- 四连测Day1
题目:链接: https://pan.baidu.com/s/163ycV64ioy7uML7AvRDTGw 密码: p86i T1: 倍增求LCA,minn数组记录最小值 #include<i ...
- GSM之AT操作命令详解20160615
因工作接触到GSM模块,所以收集整理了一下关于操作GSM模块的AT命令的资料: 1.AT的历史与应用 1.1 AT的历史AT命令集是由拨号调制解调器(MODEM)的发明者贺氏公司(Hayes)为了控制 ...
- POSIX.2 正则表达式
By francis_hao Oct 1,2017 这里的正则表达式主要是指扩展正则,也就是egrep(grep -e)用到的正则表达式. 字符 含义 类别说明 | 分割分支,正则表达式会去 ...