机器学习_深度学习_入门经典(博主永久免费教学视频系列)

https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149

微信扫二维码,免费学习更多python资源

转载https://www.jianshu.com/p/bdcf0407979a

统计概率思维-描述统计分析

1# 为什么要学统计学?

  1. 人工智能的基础知识
  2. 投资领域的必备知识
  3. 时代的入口

2# 描述统计分析
2.1 描述统计学定义

● 将复杂的数据集简化,总结出可以起到高度概括、有代表性、能够起到描述作用的数字。

2.2 描述统计常用指标

平均值

● 例子:A,B,C,D收入分别为10,11,12,13万元,人均收入为(10+11+12+13)/4=11.5万元

但是也有缺点,就是当数据中有异常值(极大或者极小)则用平均值结果来描述数据集是不准确的,如把D的收入替换成10亿元,那么人均收入约等于29000万元,虽然说这样的描述没有错误,但是不能正确体现数据集的特征(A,B,C的收入没有那么高)。

中位数

 
 

● 中位数计算方法:

  1. 按从小到大顺序排列数据
  2. 计算中间位置(假设有N个数,如果N是奇数则是中间数值,如果N是偶数则是中间两个数的平均值)

● 例子:找出5,7,3,8的中位数

  1. 从大到小排列3,5,7,8
  2. 计算中间位置,因为N=4,则其中位数是(5+7)/2=6

四分位数

 
](https://upload-images.jianshu.io/upload_images/2352533-320a346b0fd6f977.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

● 四分位数的计算方法:

  1. 找到中位数(叫做Q2)
  2. 求出中位数左边部分的中位数(叫做Q1,成为下四分位数)
  3. 求出中位数右边部分的中位数(叫做Q3,成为上四分位数)

● 可视化例子(箱线图):

 
 

● 可视化例子2(比较不同类型数据集的数据分布情况)

 
 

横轴x是对数据分析师需求top6的城市,纵轴y是薪资情况。
结论:深圳的工资水平较高,行业顶薪也是位居六大城市之首。

 
 

横轴x是对数据分析师参与工作年数,纵轴y是薪资情况。
结论:数据分析师的薪资水平随着工作年限增长,在3-5年阶段增长、跨度尤为明显。

● 识别异常值(极大或者极小的值)
处理方法:

  1. 对错误数据进行修正
  2. 对错误数据删除
  3. 确认出异常值符合现实以后,选择保留

● Turkey‘s test

  1. 最小估计值:Q1-k(Q3-Q1)
  2. 最大估计值:Q3+k(Q3-Q1)
  3. 如果K=1.5 中度异常;K=3 极度异常

     
     

案例(识别出温度中的异常值):

 
 

● 总结箱线图(四分位数)优点:避免受到异常值的影响;通过turkey test识别异常值
● 总结箱线图(四分位数)的局限:无法告诉数据集的波动

标准差

● 概念打通
标准差就是计算出数据相对于平均值的波动大小,也就是衡量出一组数据的离散程度(波动大小)

离散程度=变异性=波动大小

● 标准差计算方法

方差算法:
u等于一组数据的平均值

 
 

也可以是下面的式子:

 
 

Ps:这里用平方的原因是有时候数字和平均数的偏离是反向偏离(负数),如果不进行平方可能就和正向偏离抵消。

标准差算法:

 
 

● 案例分析(哪个nba球员更加稳定):

 
 
 
 

可以推到出结论:球员1加内特的发挥更加稳定,球员2库里的发挥波动比较大

● 标准差需要注意的两个问题

  1. 标准差的单位
    和前面引入数据的单位是相同的
  2. 标准差是大一点好还是小一点好
    要看具体的数据,如生产零件那么标准差小好;公司的工资分布应该要是比较大的标准差好

标准分

● 标准分的定义
选定值和平均值相差多少个的标准差

 
 

如果标准分=0,那就就是=平均值,标准分>0则是>平均值

● 计算方法
使用平均值u和标准差σ计算出来

 
 

● 案例(摩托罗拉6σ管理)
距离平均值6个标准差σ,相当于6个标准差就是每百万件抽样中,有3.4个不合格

总结

 
 
 
 
 

异常值检验实战3_NBA球员表现稳定性分析的更多相关文章

  1. 异常值检验实战1--风控贷款年龄变量(附python代码)

    python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...

  2. python异常值检验实战2_医美手术价格

    python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...

  3. R语言︱异常值检验、离群点分析、异常值处理

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:异常值处理一般分为以下几个步骤:异常 ...

  4. R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理

    在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据 数 ...

  5. Atitit.提升稳定性-----分析内存泄漏PermGen OOM跟解决之道...java

    Atitit.提升稳定性-----分析内存泄漏PermGen OOM跟解决之道...java 1. 内存区域的划分 1 2. PermGen内存溢出深入分析 1 3. PermGen OOM原因总结 ...

  6. 【代码周边】MongoDB与Mysql对比以及插入稳定性分析(指定主键的影响)

    在数据库存放的数据中,有一种特殊的键值叫做主键,它用于惟一地标识表中的某一条记录.也就是说,一个表不能有多个主键,并且主键不能为空值. 无论是MongoDB还是MySQL,都存在着主键的定义. 对于M ...

  7. Http实战之Wireshark抓包分析

    Http实战之Wireshark抓包分析 Http相关的文章网上一搜一大把,所以笔者这一系列的文章不会只陈述一些概念,更多的是通过实战(抓包+代码实现)的方式来跟大家讨论Http协议中的各种细节,帮助 ...

  8. 夯实Java基础系列3:一文搞懂String常见面试题,从基础到实战,更有原理分析和源码解析!

    目录 目录 string基础 Java String 类 创建字符串 StringDemo.java 文件代码: String基本用法 创建String对象的常用方法 String中常用的方法,用法如 ...

  9. 机器学习理论与实战(十一)关联规则分析Apriori

    <机器学习实战>的最后的两个算法对我来说有点陌生,但学过后感觉蛮好玩,了解了一般的商品数据关联分析和搜索引擎智能提示的工作原理.先来看看关联分析(association analysis) ...

随机推荐

  1. LP线性规划求解 之 单纯形 算法

    LP线性规划求解 之 单纯形 算法 认识-单纯形 核心: 顶点旋转 随机找到一个初始的基本可行解 不断沿着可行域旋转(pivot) 重复2,直到结果不能改进为止 案例-过程 以上篇的case2的松弛型 ...

  2. 浅谈Python设计模式 - 建造者模式

    声明:本系列文章主要参考<精通Python设计模式>一书,并且参考一些资料,结合自己的一些看法来总结而来. 建造者模式 当我们想要创建一个由多个部分构成的对象,而且他们的构建需要一步接一步 ...

  3. Dockerfile(从无到有创建镜像)

    本文原始地址:https://sitoi.cn/posts/43818.html 结构 DockerFile分为四部分组成: 基础镜像信息 维护者信息 镜像操作指令 容器启动时执行指令 基础镜像信息 ...

  4. 为Linux操作系统配置SSH互信

    Linux 互信,免登陆 1.切换到要建立互信的用户(以root为例): su - root cd ~ 2.制作密钥并赋权: # ssh-keygen -t dsa               #出现 ...

  5. [TJOI2018]最长上升子序列

    Link 动态维护LIS? 观察题目:在第 i 轮操作时,将数字 i 插入 插入的数字是当前最大的 如果答案与上次不同,新的LIS必以 i 结尾 以 i 结尾的LIS无法再伸长(因为比 i 小的都插入 ...

  6. 图论 - 图的深度优先遍历c++实现

    图的深度优先遍历c++实现 深度优先搜索 邻接矩阵的创建 int i, j, m, a, b; cin >> n >> m; //初始化二维矩阵 for (i = 1; i & ...

  7. 201671030123叶虹 实验十四 团队项目评审&课程学习总结

    项目 内容 这个作业属于哪个课程 软件工程 这个作业的要求在哪里 实验十四 团队项目评审&课程学习总结 课程学习目标 掌握软件项目评审会流程:反思总结课程学习内容 一.实验一问题回答 1.实验 ...

  8. Elasticsearch 日期类型的自动监测,官方文档

    资料 网址 Elasticsearch Reference [7.3] » Mapping » Field datatypes » Date datatype https://www.elastic. ...

  9. python在windows(双版本)及linux(源码编译)环境下安装

    python下载 下载地址:https://www.python.org/downloads/ 可以下载需要的版本,这里选择2.7.12和3.6.2 下面第一个是linux版本,第二个是windows ...

  10. 关于defer.promise.then 异步的一个疑问 | 用柯里化做promise | 用递归做promise

    疑问:感觉会报错,因为执行到defer.promise.then这时候还没到defer.resolve,因为异步读文件,总归会慢 解答:先执行defer.promise.then,是给callback ...