统计学（检验、分布）的 python（numpy/pandas/scipy）实现

scipy 中统计相关的 api：https://docs.scipy.org/doc/scipy/reference/stats.html
https://zhuanlan.zhihu.com/p/24635014
https://blog.csdn.net/lanchunhui/article/details/52328380

1. t 检验：两个分布的差异

多维数据集的每一个属性列都可理解为一个特征的实例。两个分布的距离：每一个属性列代表的特征跟标签列之间的相关性。

t 检验用 t 分布理论来推论差异发生的概率，以比较两个分布的平均数之间的差异是否显著。主要用于样本含量小（n<30" role="presentation">n<30n<30），总体标准差 σ" role="presentation">σσ 未知的正态分布。

独立样本 t 检验统计量如下计算：

t=X¯1−X¯2S12n1+S22n2,Sx2=∑(x−μ)2n−1" role="presentation">t=X¯1−X¯2S21n1+S22n2−−−−−−−√,S2x=∑(x−μ)2n−1t=X¯1−X¯2S12n1+S22n2,Sx2=∑(x−μ)2n−1

尤其注意，这里的方差是无偏估计（np.std(x, ddof=1)）

# 通过字典构造 DataFrame

data = {'Category': ['cat2', 'cat1', 'cat2', 'cat1',

                     'cat2', 'cat1', 'cat2', 'cat1', 'cat1', 'cat1', 'cat2'],

        'values': [1, 2, 3, 1, 2, 3, 1, 2, 3, 5, 1]}

data_df = DataFrame(data)

# 计算各自的均值

>> data_df.groupby('Category').mean()

cat1      2.666667

cat2      1.600000

cat1 = data_df[data_df['Category'] == 'cat1']

    # data_df.Category == 'cat1'

cat2 = data_df[data_df['Category'] == 'cat2']

from scipy.stats import ttest_ind

# 计算二者的 t 检验统计量，及对应的 p-value

>> ttest_ind(cat1['values'], cat2['values'])

Ttest_indResult(statistic=1.4927289925706944, pvalue=0.16970867501294376)

scipy 下的 t-test 计算方法

def t_test(x1, x2):

    n1, n2 = x1.size, x2.size

    mu1, mu2 = np.mean(x1), np.mean(x2)

    s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)

    num = np.abs(mu1 - mu2)

    denom = np.sqrt((((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))*(1/n1+1/n2))

    with np.errstate(divide='ignore'):

        return num / denom

统计学（检验、分布）的 python（numpy/pandas/scipy）实现的更多相关文章

有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
linux下安装numpy,pandas,scipy,matplotlib,scikit-learn
python在数据科学方面需要用到的库: a.Numpy:科学计算库.提供矩阵运算的库. b.Pandas:数据分析处理库 c.scipy:数值计算库.提供数值积分和常微分方程组求解算法.提供了一个非 ...
Python: NumPy, Pandas学习资料
NumPy 学习资料书籍 NumPy Cookbook_[Idris2012] NumPy Beginner's Guide,3rd_[Idris2015] Python数据分析基础教程:NumPy ...
Python Numpy,Pandas基础笔记
Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarr ...
python numpy+mkl+scipy win64 安装
用pip在windows下安装numpy,scipy等库时一般来说都不会很顺利比较好的方式是自己下载对应的whl文件pip install 话不多说上链接 http://www.lfd.uci.edu ...
python/numpy/pandas数据操作知识与技巧
pandas针对dataframe各种操作技巧集合: filtering: 一般地,使用df.column > xx将会产生一个只有boolean值的series,以该series作为dataf ...
Python_科学计算平台__pypi体系的numpy、scipy、pandas、matplotlib库简介
1.numpy--基础,以矩阵为基础的数学计算模块,纯数学存储和处理大型矩阵. 这个是很基础的扩展,其余的扩展都是以此为基础. 快速学习入口 https://docs.scipy.org/doc/n ...
python安装pip、numpy、scipy、statsmodels、pandas、matplotlib等
1.安装python 2.安装numpy(开源的数值计算扩展,可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多. 很多库都是以此库为依 ...
centos 7 下安装numpy、scipy等python包
本文适用于刚入门的小白,欢迎大牛们批评指正. 因为要开始数据分析,而python又不像R和matlab那么简洁.需要安装的包很多~ 网上找了好多牛人博客,想在centos7下安装numpy,scipy ...

随机推荐

将正在使用的Ubuntu14.04 制作成镜像文件
remastersys 是一个能够备份你的ubuntu系统的工具. 源码在github上能找到:Remastersys Source 可以直接 apt 安装: sudo add-apt-reposit ...
NIO 之 ByteBuffer
前言对于刚接触ByteBuffer人来说,想要完全理解会稍微有点困难,正巧前几天有人问我,想到好久没写文章,就整理一下. 概念理解对于ByteBuffer的一些概念不理解的情况下,如果直接打开源码 ...
Spring AMQP 源码分析 05 - 异常处理
### 准备 ## 目标了解 Spring AMQP Message Listener 如何处理异常 ## 前置知识 <Spring AMQP 源码分析 04 - MessageListene ...
16 Managing Undo
16 Managing Undo 从Oracle11g开始,在默认安装中oracle会自动管理undo, 典型安装中不需要DBA介入配置,然而,如果选择了flash back特性,你就需要进行一些un ...
20170624xlVBA正则分割分类汇总
Sub RegExpSubtotal() '声明变量 Dim Regex As Object '正则对象 Dim Dic As Object '字典对象 Dim Key As String '关键字 ...
Confluence 6 LDAP 用户结构设置
用户对象类(User Object Class) 这个是在 LDAP 用户对象中对用户分类的名字.例如: user 用户对象过滤器(User Object Filter) 当对用户对象进行搜索的时候 ...
H5表单基础知识（二）
表单新增属性  <!-- placeholder ...
CentOS7 install apache
1. yum install httpd 2. config /etc/httpd/conf/httpd.conf <VirtualHost *:80> ServerName www.l ...
vue新手入门指导，一篇让你学会vue技术栈，本人初学时候的文档
今天整理文档突然发现了一份md文档,打开一看瞬间想起当年学习vue的艰难路,没人指导全靠自己蒙,下面就是md文档内容,需要的小伙伴可以打开个在线的md编译器看一看,我相信不管是新人还是老人入门总 ...
Leetcode 113
/** * Definition for a binary tree node. * struct TreeNode { * int val; * TreeNode *left; * TreeNode ...

统计学（检验、分布）的 python（numpy/pandas/scipy） 实现

1. t 检验：两个分布的差异

统计学（检验、分布）的 python（numpy/pandas/scipy） 实现的更多相关文章

随机推荐

热门专题

统计学（检验、分布）的 python（numpy/pandas/scipy）实现

统计学（检验、分布）的 python（numpy/pandas/scipy）实现的更多相关文章