探索性数据分析(Exploratory Data Analysis)

本节课程先从统计分析四步骤中的第二步:EDA开始。

课程定义了若干个术语,如果学习过机器学习的同学,应该很容易类比理解:

  • population:上节课说过,整体数据集合被称作population
  • individual:其中每个个体,课程里称之为individual,注意不仅仅指个人,也可以泛指其他集合的其中一条数据
  • variable:变量,即描述个体的某个特点,类比机器学习中的特征
  • dataset:从population中圈定的一个子集

举个例子:

这是一个用药记录表,其中每一行是一个individual,每一列是一个variable

变量的类型

variable可以细分为两种:Categorical variables 分类变量(也叫Qualitative variables 定性变量)和 Quantitative variables 定量变量

前者一般就是指离散型变量,后者一般指连续型变量。

课程中还提到另一种变量(或叫特征)的分类方法:

  • Nominal variable:名义变量(也叫定类变量),是最不精确的度量方法,只能用来区分差别(difference)。例如生物类别:狗、猫、牛、马、人、细菌……就是典型的名义变量。其特点是:各个值之间没有优劣之分,是平等的,自然也无法相互比较和计算。
  • Ordinal variable:序数变量,其比Nominal variable精确一些,其可以对不同值进行排序。例如比赛的名次:冠军、亚军、季军、第四名……就是典型的有序变量。这类变量的特点是:各个值之间有顺序或者说优劣(如冠军最好,亚军次之,最后一名最差等),但是彼此之间的间隔既不固定也不相等(如跳水冠军123分、亚军96分、季军95分)。
  • Interval variable:区间变量,其比序数变量更精确一些,其相邻的值之间的差异是固定或者说相等的。例如温度计:100摄氏度和99摄氏度、99摄氏度和98摄氏度之间都相差1个摄氏度,可以看到这个差值是固定的,或者说相邻的两个值之间的差是相等的。但区间变量中的0不能表示“没有”这种变量或特征,比如0摄氏度,其并不代表没有温度了(因为0度是有意义的,此外还有零下20度、零下100度等)。【个人理解:就是interval variable的特征是可以取0值的,或者说0值是有效的值】
  • Ratio:比例/比率。是最精确的度量方法,其比区间变量更精确,与区间变量的差别也就是其中的0可以表示没有这种变量或特征。比如年龄:0岁就表示没有年龄;身高:0cm表示没有身高;体重:0kg表示没有体重;【个人理解:就是ratio的0值表示的是这一条individual在这个特征上是缺失的,即没有有效值,但ratio的0是否可以用于分析呢?这个需要继续往下学习了……】

注意上述四个度量方法之间,能够用高精度的方法度量的变量,也可以转为用低精度的方法来度量,比如年龄是ratio,其可以转为用ordinal variable来度量(比如婴儿期、幼儿期、青年、中年、老年等);但反之不行,比如冠军和亚军之间无法用interval variable或ratio来度量。

interval variable 和 ratio之间可能比较难区分,多看一些例子可能会好一些:

  1. 考试分数是哪种?答案是interval variable,因为0分是可以存在的,考试可以考0分,而不能说成0分表示根本没参加考试;
  2. 老师在课堂上留给学生讨论的分钟数是哪种?答案是ratio,因为0表示老师根本没留时间给学生讨论,而一般不能说成“老师留了0分钟给学生讨论”;

有sense了吗?interval variable的0表示事情发生了其结果是0(或可以发生结果是0的事情);而ratio的0表示事情根本没发生(或根本不存在)。

单个变量的分析

从这里开始,课程阐述了EDA在做什么——可以理解为观察变量自身的特点、变量之间的关系、变量与结果之间的关系。

所以先从单个变量开始,即只看一个变量自身的特点分析。

单个变量的图示方法

单个分类变量(Categorical variables)一般可以用饼状图(pie chart)表示:

饼状图一般适合表示变量的每种取值与全局的关系。

也可以用柱状图(bar chart)来表示:

 

柱状图一般适合表示变量的每种取值之间的对比(柱状图Y轴的值可以从值value改为百分比percent)。

单个定量变量(Quantitative variables)一般用直方图(histogram):

茎叶图(stemplot):

或箱线图(boxplot)表示。

下一篇就从直方图开始详细介绍对于单个连续性变量的EDA分析,包括各种术语、概念的方法论。

斯坦福【概率与统计】课程笔记(二):从EDA开始的更多相关文章

  1. 斯坦福大学IOS开发课程笔记(第七课第一部分)

    转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/31462099 作者:小马 这节课的内容太多,分两部分介绍.本节课主要是介绍怎样开发 ...

  2. IOS学习之斯坦福大学IOS开发课程笔记(第六课)

    转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/28398697 作者:小马 这节课主要讲述多个MVC是怎样协同工作的.到眼下为止.全 ...

  3. 深度学习课程笔记(二)Classification: Probility Generative Model

    深度学习课程笔记(二)Classification: Probility Generative Model  2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw ...

  4. 深度学习课程笔记(十二) Matrix Capsule

    深度学习课程笔记(十二) Matrix Capsule with EM Routing  2018-02-02  21:21:09  Paper: https://openreview.net/pdf ...

  5. Andrew Ng机器学习课程笔记(二)之逻辑回归

    Andrew Ng机器学习课程笔记(二)之逻辑回归 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...

  6. CS231n课程笔记翻译8:神经网络笔记 part3

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 3,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含 ...

  7. CS231n课程笔记翻译7:神经网络笔记 part2

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 2,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃进行校对修改.译文含公式和代 ...

  8. CS231n课程笔记翻译6:神经网络笔记 part1

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 1,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,巩子嘉和堃堃进行校对修改.译文含 ...

  9. CS231n课程笔记翻译3:线性分类笔记

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Linear Classification Note,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,巩子嘉和堃堃进行校 ...

  10. CS231n课程笔记翻译2:图像分类笔记

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记image classification notes,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客翻译完成.Shiqin ...

随机推荐

  1. vue 全局filter的坑

    下面连段代码的filter放在不同的位子会有不同的效果, 1.filter放在new vue之后,居然不起作用 <script> new Vue({ el: '#app', data: { ...

  2. bfs(火星撞地球)

    Meteor Shower 链接:https://ac.nowcoder.com/acm/contest/997/I来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 327 ...

  3. Day10---Python的jieba库

    jieba库:中文分词第三方库 jieba.lcut(s) jieba.lcut(s,cut_all=true) jieba.lcut_for_search(s)

  4. 2019 Multi-University Training Contest 1 - 1009 - String - 贪心

    不知道错在哪里. 是要把atop改成stop!两个弄混了.感谢自造样例. #include<bits/stdc++.h> using namespace std; typedef long ...

  5. Metasploit自动攻击模块

    Metasploit自动攻击模块 Usage: db_autopwn [options] -h Display this help text -t Show all matching exploit ...

  6. 修改ps工具栏字体大小

     修改ps工具栏字体大小 先改电脑分辨率或者改首选项--界面---文字,退出后,重新打开,但你会发现问题还是没解决,我们接着往下  找到文件夹安装目录下的photoshops.exe启动文件(查找方法 ...

  7. windows与linux安装Python虚拟环境

    我这里觉得还是一步到位用virtualenvwrapper  工具,不再讲述virtualenv了,有了工具很好用 windows : 首先安装工具 pip install virtualenvwra ...

  8. 负载均衡算法WeightedRoundRobin(加权轮询)简介及算法实现

    Nginx的负载均衡默认算法是加权轮询算法,本文简单介绍算法的逻辑,并给出算法的Java实现版本. 本文参考了Nginx的负载均衡 - 加权轮询 (Weighted Round Robin).     ...

  9. 【记录】jd-gui解析class文件 报INTERNAL ERROR

    用GUI查看class文件时候出现INTERNAL ERROR 错误,是因为jd-gui解析不了该class文件,报错问题如下 解决方式:换个解析器,推荐luyten解析 下载地址:https://g ...

  10. Codecraft-17 and Codeforces Round #391 - B

    题目链接:http://codeforces.com/contest/757/problem/B 题意:给定n个数字,问最多能选个多少个数字使得选出来的数字的gcd!=1. 思路:由于数字最大为1e5 ...