一. QQ图

分位数图示法（Quantile Quantile Plot，简称 Q-Q 图）

统计学里Q-Q图（Q代表分位数）是一个概率图，用图形的方式比较两个概率分布，把他们的两个分位数放在一起比较。首先选好分位数间隔。图上的点（x,y）反映出其中一个第二个分布（y坐标）的分位数和与之对应的第一分布（x坐标）的相同分位数。因此，这条线是一条以分位数间隔为参数的曲线。如果两个分布相似，则该Q-Q图趋近于落在y=x线上。如果两分布线性相关，则点在Q-Q图上趋近于落在一条直线上，但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。

从定义中可以看出Q-Q图主要用于检验数据分布的相似性，如果要利用Q-Q图来对数据进行正态分布的检验，则可以令x轴为正态分布的分位数，y轴为样本分位数，如果这两者构成的点分布在一条直线上，就证明样本数据与正态分布存在线性相关性，即服从正态分布。

二. PP图

P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图，用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布，则代表样本数据的点应当基本在代表理论分布的对角线上。

由于P-P图和Q-Q图的用途完全相同，只是检验方法存在差异。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.

用QQ图还可获得样本偏度和峰度的粗略信息.

scipy 画Q-Q图

fig = plt.figure()

res = stats.probplot(train['SalePrice'], plot=plt)

plt.show()

scipy.stats 用法

# -*- coding: utf-8 -*-

from scipy import stats

from numpy import random

# Distributions

# 常用分布可参考本文档结尾处

# 分布可以使用的方法见下列清单

data=random.normal(size=1000)

stats.norm.rvs(loc=0,scale=1,size=10,random_state=None)     # 生成随机数

stats.norm.pdf(-1.96,loc=0,scale=1)                         # 密度分布函数，画密度分布图时使用

stats.norm.cdf(-1.96,loc=0,scale=1)                         # 累计分布函数，-1.96对应2.5%

stats.norm.sf(-1.96,loc=0,scale=1)                          # 残存函数(=1-cdf)，-1.96对应97.5%

stats.norm.ppf(0.025,loc=0,scale=1)                         # 累计分布函数反过来

stats.norm.isf(0.975,loc=0,scale=1)                         # 残存函数反过来

stats.norm.interval(0.95,loc=0,scale=1)                     # 置信度为95%的置信区间

stats.norm.moment(n=2,loc=0,scale=1)                        # n阶非中心距，n=2时是方差

stats.norm.median(loc=0,scale=1)                            # Median of the distribution.

stats.norm.mean(loc=0,scale=1)                              # Mean of the distribution.

stats.norm.var(loc=0,scale=1)                               # Variance of the distribution.

stats.norm.std(loc=0,scale=1)                               # Standard deviation of the distribution.

stats.norm.fit(data)                                        # fit 估计潜在分布的参数

# Statistical functions

stats.describe([1,2,3])                                                 # 返回多个统计量

stats.gmean([1,2,4])                                                    # 几何平均数 n-th root of (x1 * x2 * ... * xn)

stats.hmean([2,2,2])                                                    # 调和平均数 n / (1/x1 + 1/x2 + ... + 1/xn)

stats.trim_mean([1,2,3,5],0.25)                                         # 砍头去尾均值，按比例砍

stats.sem(data)                                                         # Calculates the standard error of the mean

stats.mode([1,1,2])                                                     # 众数

stats.skew(data)                                                        # 偏度

stats.kurtosis(data)                                                    # 峰度

stats.moment(data,moment=3)                                             # n阶中心矩，3阶就是偏度，4阶就是峰度

stats.skewtest(data)                                                    # 检验偏度是否符合正态分布的偏度

stats.kurtosistest(data)                                                # 检验峰度是否符合正态分布的峰度

stats.normaltest(data)                                                  # 检验是否符合正态分布

stats.variation([1,2,3])                                                # 变异系数(=std/mean*100%)

stats.find_repeats([1,1,2,2,3])                                         # 重复值查找

stats.itemfreq([1,1,2,2,3])                                             # 频次统计

stats.percentileofscore([1,2,3,4,5],2)                                  # 返回数值的分位数

stats.scoreatpercentile([1,2,3,4,5],80,interpolation_method="lower")    # 返回分位数对应的数值

stats.bayes_mvs(data)                                                   # 返回均值/方差/标准差的贝叶斯置信区间

stats.iqr([1,2,3,4,5],rng=(25,75))                                      # 计算 IQR

stats.zscore(data)                                                      # 计算 zscore

stats.f_oneway(data,data+data,data+data+data)                           # 单因素方差分析，参数是(样本组1,样本组2,样本组3)

stats.pearsonr(data,data+data)                                          # 皮尔森相关系数

stats.spearmanr(data,data+data)                                         # 斯皮尔曼秩相关系数

stats.kendalltau(data,data+data)                                        # 肯德尔相关系数

stats.pointbiserialr([1,1,1,0,0,0],[1,2,3,4,5,6])                       # 点二系列相关，第一个变量需要是二分类变量

stats.linregress(data,data+data)                                        # 线性最小二乘回归

stats.ttest_1samp(data,popmean=0)                                                               # 单样本 t-检验: 检验总体平均数的值

stats.ttest_ind(data,data+data)                                                                 # 双样本 t-检验: 检验不同总体的差异

stats.ttest_rel(data,data+data)                                                                 # 配对样本 t-检验

stats.ttest_ind_from_stats(mean1=0,std1=1,nobs1=100,mean2=10,std2=1,nobs2=150,equal_var=True)   # 根据统计量做 t-检验

stats.wilcoxon(data,data+data)                                                                  # 一种非参数的配对样本检验。t-检验假定高斯误差。可以使用威尔科克森符号秩检验, 放松了这个假设

stats.kstest(data,'norm')                                                                       # Kolmogorov–Smirnov检验: 检验单一样本是否服从某一预先假设的特定分布

stats.ks_2samp(data,data+data)                                                                  # 检测两样本分布是否相同

stats.ranksums(data,data+data)                                                                  # Wilcoxon rank-sum statistic 检测两样本分布是否相同

stats.chisquare(data,data)                                                                      # 卡方检验，第一个参数是样本分布，第二个参数是期望分布

# Circular statistical functions

# 适用于环形数据，如时间(60分钟一圈)，角度(360度一圈)

# 例如 0度 与 360度 的均值应该是 0度

stats.circmean([0,360],high=0,low=360)      # 均值

stats.circvar([0,360],high=0,low=360)       # 方差

stats.circstd([0,360],high=0,low=360)       # 标准差

# Contingency table functions

# 列联表

stats.chi2_contingency([[10,10,20],[20,20,20]],lambda_="log-likelihood")        # 卡方检验，n*m的列联表，每个格子样本数要大于5，lambda_默认皮尔森

stats.fisher_exact([[8,2],[1,5]],alternative="two-sided")                       # 费舍尔精确检验，2*2的列联表，alternative:two-sided,less,greater

stats.contingency.expected_freq([[10,10,20],[20,20,20]])                        # 返回列联表的期望频次(各变量独立时的预期频次)

import numpy as np; stats.contingency.margins(np.array([[10,10,20],[20,20,20]]))# 返回列联表的行列和

# Plot-tests

# 图检验：probplot与Q-Q图的差异：P-P图是用分布的累计比，而Q-Q图用的是分布的分位数来做检验

import matplotlib.pyplot as plt

data=random.normal(loc=0,scale=1,size=500)

stats.probplot(data,dist=stats.norm,sparams=(0,1),plot=plt) # P-P图(probability plot)，参数sparams传的是均值与标准差

stats.boxcox_normplot(abs(data),-3,3,plot=plt)              # 不知干啥用，Compute parameters for a Box-Cox normality plot

stats.ppcc_plot(data,-3,3,dist=stats.norm,plot=plt)         # 不知干啥用，Calculate and optionally plot probability plot correlation coefficient.

stats.ppcc_max(data,dist=stats.norm)                        # 不知干啥用，返回 PPCC 取最大时对应的位置

# Univariate and multivariate kernel density estimation

# 核密度估计用于估计未知的密度函数，属於非参数检验方法之一

stats.gaussian_kde([data,data+random.normal(size=500)])     # 不知干啥用，Representation of a kernel-density estimate using Gaussian kernels.

""" ---------------------------------------------------------------------------------------------------------

所有分布都是 rv_continuous(连续型分布) 与 rv_discrete(离散型分布) 的实例

rv_continuous([momtype, a, b, xtol, ...])   A generic continuous random variable class meant for subclassing.

rv_discrete([a, b, name, badvalue, ...])    A generic discrete random variable class meant for subclassing.

rv_histogram(histogram, *args, **kwargs)    Generates a distribution given by a histogram.

Continuous distributions 连续型分布

alpha   An alpha continuous random variable.

beta    A beta continuous random variable.

chi2    A chi-squared continuous random variable.

f       An F continuous random variable.

gamma   A gamma continuous random variable.

lognorm A lognormal continuous random variable.

ncx2    A non-central chi-squared continuous random variable.

ncf     A non-central F distribution continuous random variable.

nct     A non-central Student’s T continuous random variable.

norm    A normal continuous random variable.

pareto  A Pareto continuous random variable.

t       A Student’s T continuous random variable.

uniform A uniform continuous random variable.

wald    A Wald continuous random variable.

……

Multivariate distributions 多元分布

multivariate_normal A multivariate normal random variable.

matrix_normal       A matrix normal random variable.

multinomial         A multinomial random variable.

random_correlation  A random correlation matrix.

……

Discrete distributions 离散型分布

binom       A binomial discrete random variable.

hypergeom   A hypergeometric discrete random variable.

nbinom      A negative binomial discrete random variable.

poisson     A Poisson discrete random variable.

randint     A uniform discrete random variable.

参考：

Python机器学习:预测分析核心算法

机器学习漫游指南最完整的入门书单（外文版）

Q-Q图简介

学习-Python-数据分析&数据挖掘-4 SciPy.stats

PP图和QQ图的更多相关文章

PP图和QQ图检查2个数据集是否符合同一分布
1.QQ图检查2个数据集是否符合同一分布,Purpose:Check If Two Data Sets Can Be Fit With the Same Distribution PP图和QQ图 - ...
Q-Q图和P-P图
一. QQ图分位数图示法(Quantile Quantile Plot,简称 Q-Q 图) 统计学里Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把他们 ...
统计工具之QQ图
正态 QQ 图和普通 QQ 图分位数-分位数 (QQ) 图是两种分布的分位数相对彼此进行绘制的图.评估数据集是否正态分布,并分别研究两个数据集是否具有相似的分布. 如何构建正态 QQ 图首先,数据 ...
怎么用Q-Q图验证数据集的分布
样本数据集在构建机器学习模型的过程中具有重要的作用,样本数据集包括训练集.验证集.测试集,其中训练集和验证集的作用是对学习模型进行参数择优,测试集是测试该模型的泛化能力. 正负样本数据集符合独立同分布 ...
Q-Q图原理详解及Python实现
[导读]在之前的<数据挖掘概念与技术第2章>的文章中我们介绍了Q-Q图的概念,并且通过调用现成的python函数, 画出了Q-Q图, 验证了Q-Q图的两个主要作用,1. 检验一列数据是否 ...
正态QQ图的原理
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
Python中作Q-Q图（quantile-quantile Plot）
Q-Q图主要可以用来回答这些问题: 两组数据是否来自同一分布 PS:当然也可以用KS检验,利用python中scipy.stats.ks_2samp函数可以获得差值KS statistic和P值从而实 ...
GWAS: 曼哈顿图，QQ plot 图，膨胀系数（ manhattan、Genomic Inflation Factor）
画曼哈顿图和QQ plot 首推R包“qqman”,简约方便.下面具体介绍以下. 一.画曼哈顿图 install.packages("qqman") library(qqman) ...
R语言绘制QQ图
无论是直方图还是经验分布图,要从比较上鉴别样本是否处近似于某种类型的分布是困难的 QQ图可以帮我们鉴别样本的分布是否近似于某种类型的分布 R语言,代码如下: > qqnorm(w);qqline ...

随机推荐

洛谷P3628 [APIO2010]特别行动队（动态规划，斜率优化，单调队列）
洛谷题目传送门安利蒟蒻斜率优化总结由于人是每次都是连续一段一段地选,所以考虑直接对\(x\)记前缀和,设现在的\(x_i=\)原来的\(\sum\limits_{j=1}^ix_i\). 设\(f ...
自学Zabbix12.3 Zabbix命令-zabbix_agentd
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦自学Zabbix12.3 Zabbix命令-zabbix_agentd 1. zabbix_age ...
luogu4268 Directory Traversal (dfs)
题意:给一个树状的文件结构,让你求从某个文件夹出发访问到所有文件,访问路径字符串长度之和的最小值,其中,访问父节点用..表示,两级之间用/分割做两次dfs,第一次算DownN[x]和DownS[x] ...
jieba分词器
始终觉得官方文档是最好的学习途径.嗯,我只是一个大自然的搬运工.传送门https://github.com/fxsjy/jieba 1.分词 jieba.cut 方法接受三个输入参数: 需要分词的字符 ...
部署kubernetes1.8.3高可用集群
Kubernetes作为容器应用的管理平台,通过对pod的运行状态进行监控,并且根据主机或容器失效的状态将新的pod调度到其他node上,实现了应用层的高可用. 针对kubernetes集群,高可用性 ...
Centos6.5之ssh免密码登录配置
Centos6.5之ssh免密码登录配置 centos ssh 免密码登录 0.说明这里为了方便说明问题,假设有A和B两台安装了centos6.5的主机.目标是实现A.B两台主机分别能够通过ssh免 ...
拖拽功能by javascript 和 react 两种实现方法
使用鼠标移动图片或者移动图像怪有意思的,那这个移动的效果是怎么实现的呢? 在拖动的过程中,我们会涉及到鼠标向下按,以及移动图形,还有我们松开这几个步骤. 当我们将鼠标向下按的时候,我们鼠标点的这个动作 ...
SQL Server sp_executesql介绍和使用
execute相信大家都用的用熟了,简写为exec,除了用来执行存储过程,一般都用来执行动态Sql sp_executesql,sql2005中引入的新的系统存储过程,也是用来处理动态sql的, 如: ...
C#.Net 持久化对象为XML文件
</pre><pre code_snippet_id="613717" snippet_file_name="blog_20150307_1_57950 ...
HTTPS理解
摘要:本文尝试一步步还原HTTPS的设计过程,以理解为什么HTTPS最终会是这副模样.但是这并不代表HTTPS的真实设计过程.在阅读本文时,你可以尝试放下已有的对HTTPS的理解,这样更利于“还原”过 ...

PP图和QQ图

参考：