用Python学线性代数：概率密度函数拟合

问题

如果有一组数据，如何确定他们来自哪个统计分布？

从数据分析的角度，我们并不想要通过严格的统计方法去找到这个分布，Python中有一个可以自动拟合数据分析的库 —— distfit 。这是一个python包，用于通过残差平方和（RSS）和拟合优度检验（GOF）对89个单变量分布进行概率密度拟合，并返回最佳分布。

distfit 简单又好用

# 安装

pip install distfit

distfit 常见的用法：

.fit_transform(): 在经验数据 X 上拟合分布

.summary:获得拟合数据（内部）并测试拟合优度的所有分布的摘要。

.predict():预测响应变量的概率

.model：输出分布的最佳参数

.plot(): 绘制最佳的拟合分布

示例

from distfit import distfit

import numpy as np

X = np.random.normal(0, 2, [100,10])

y = [-8,-6,0,1,2,3,4,5,6]

dist = distfit(todf=True)

dist.fit_transform(X)

dist.plot()

输出用于拟合过程的函数列表，它使用最流行的 10 个发行版的列表进行扫描。

[distfit] >[norm      ] [0.00 sec] [RSS: 0.0120713] [loc=-0.047 scale=1.984]

[distfit] >[expon     ] [0.0 sec] [RSS: 0.4092169] [loc=-7.320 scale=7.273]

[distfit] >[pareto    ] [0.06 sec] [RSS: 0.4098607] [loc=-98251992.546 scale=98251985.226]

[distfit] >[dweibull  ] [0.01 sec] [RSS: 0.0229391] [loc=-0.046 scale=1.721]

[distfit] >[t         ] [0.04 sec] [RSS: 0.0120717] [loc=-0.047 scale=1.984]

[distfit] >[genextreme] [0.05 sec] [RSS: 0.0107445] [loc=-0.755 scale=1.981]

[distfit] >[gamma     ] [0.04 sec] [RSS: 0.0118907] [loc=-191.812 scale=0.021]

[distfit] >[lognorm   ] [0.09 sec] [RSS: 0.0117103] [loc=-107.148 scale=107.084]

[distfit] >[beta      ] [0.03 sec] [RSS: 0.0116300] [loc=-14.479 scale=28.973]

[distfit] >[uniform   ] [0.0 sec] [RSS: 0.2545746] [loc=-7.320 scale=12.835]

[distfit] >[loggamma  ] [0.04 sec] [RSS: 0.0123738] [loc=-360.941 scale=54.518]

当然，distfit 支持的分布还有很多：

最后绘制最佳的拟合分布

dist.summary 输出各分布的参数。

         distr      score  ...       scale                                       arg

0   genextreme  0.0107445  ...      1.9814                    (0.27387377680364405,)

1         beta    0.01163  ...     28.9726  (26.055079164665887, 26.248878389403494)

2      lognorm  0.0117103  ...     107.084                    (0.01848064379707136,)

3        gamma  0.0118907  ...   0.0205321                      (9339.777394183824,)

4         norm  0.0120713  ...     1.98429                                        ()

5            t  0.0120717  ...     1.98428                      (1863131.339823592,)

6     loggamma  0.0123738  ...     54.5178                      (750.2645425001494,)

7     dweibull  0.0229391  ...     1.72129                     (1.2898970802235787,)

8      uniform   0.254575  ...     12.8346                                        ()

9        expon   0.409217  ...     7.27316                                        ()

10      pareto   0.409861  ...  9.8252e+07                     (13542571.060345018,)

用Python学线性代数：概率密度函数拟合的更多相关文章

rvs产生服从指定分布的随机数 pdf概率密度函数 cdf累计分布函数 ppf 分位点函数
统计工作中几个常用用法在python统计函数库scipy.stats的使用范例. 正态分布以正态分布的常见需求为例了解scipy.stats的基本使用方法. 1.生成服从指定分布的随机数 norm.r ...
高斯分布（Gaussian Distribution）的概率密度函数（probability density function）
高斯分布(Gaussian Distribution)的概率密度函数(probability density function) 对应于numpy中: numpy.random.normal(loc= ...
PDF的来源——概率密度函数
//首发于简书,详见原文:https://www.jianshu.com/p/6493edd20d61 你不会还真的以为这是一篇讲怎么做pdf文件,怎么编辑.保存.美化的文章吧? 咳咳,很遗憾告诉你不 ...
Python学到什么程度就可以去找工作？掌握这4点足够了！
大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”,对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来,一般都不会有什么问 ...
Python学到什么程度才可以去找工作？掌握这4点足够了！
大家在学习Python的时候,有人会问"Python要学到什么程度才能出去找工作",对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来 ...
《用 Python 学微积分》笔记 3
<用 Python 学微积分>原文见参考资料 1. 16.优化用一个给定边长 4 的正方形来折一个没有盖的纸盒,设纸盒的底部边长为 l,则纸盒的高为 (4-l)/2,那么纸盒的体积为: ...
《用 Python 学微积分》笔记 2
<用 Python 学微积分>原文见参考资料 1. 13.大 O 记法比较两个函数时,我们会想知道,随着输入值 x 的增长或减小,两个函数的输出值增长或减小的速度究竟谁快谁慢.通过绘制函 ...
《用 Python 学微积分》笔记 1
<用 Python 学微积分>原文见参考资料 1. 1.多项式 f(x)=x3-5x2+9 def f(x): return x**3 - 5*x**2 + 9 print f(3) pr ...
函数的光滑化或正则化卷积应用两个统计独立变量X与Y的和的概率密度函数是X与Y的概率密度函数的卷积
http://graphics.stanford.edu/courses/cs178/applets/convolution.html Convolution is an operation on t ...
利用Python学习线性代数 -- 1.1 线性方程组
利用Python学习线性代数 -- 1.1 线性方程组本节实现的主要功能函数,在源码文件linear_system中,后续章节将作为基本功能调用. 线性方程线性方程组由一个或多个线性方程组成,如 ...

随机推荐

easyEZbaby_app
for循环,这里给它化简255-i+2-98-未知数x需要等于'0'对应的ASCII值48,那么求x的值,x=111-i,而i的值就是从0到14,这样便可以计算出15位的密码所以写出来的脚本
JS 树形结构根据子节点找到所有上级
需求:是根据子菜单找到所有他上级菜单进行面包屑的回显要求子节点里包含父级id 代码如下: parentTree(arr, id) { //arr 所有的树数据 id 某个子节点的id ...
开源一套快速部署程序的工具（CI/CD）
随着微服务越写越多,程序发布就成了一个麻烦事,所以写了一个部署工具 Vela,只要填写一个git地址.编译命令等简单信息,就能自动完成程序的部署. Vela 特性: 代码可在任意一台电脑自动完成编译, ...
python之史上最详细if教程
目录简单的if语句关系运算符 if-else语句 if-elif-else语句使用多个elif代码块省略else代码块测试多个if 简单的if语句 if语句,顾名思义就是如果...那么就.. ...
Cadence SPB 22.1 -- 元件库的创建02Day
一.原理图元件库工程 (1).新建工程:执行菜单命令"File"→"New"→"Project",输入工程名字.存储位置等基本信息保存即可: ...
如何修改Ubuntu的时间与时间同步
1.安装ntpdate,同步标准时间 zce@ubuntu:~$ sudo apt install ntpdate 输入管理员密码确认安装 zce@ubuntu:~$ sudo apt install ...
现代统计分析软件Datainside在学生成绩分析中的应用
Datainside(薪火数据)是一款非常常用的统计分析软件,广泛应用于学术研究和商业领域. 在学生成绩分析方面,Datainside提供了丰富的功能和工具,可以帮助教育机构和研究人员深入理解学生的学 ...
C#中的并行处理、并行查询的方法你用对了吗？
Parallel.ForEach Parallel.ForEach 是一个用于在集合上并行执行迭代操作的强大工具.它通过有效地利用多核处理器的能力来提高性能.Parallel.ForEach 不仅能够 ...
【工具推荐】LICEcap –GIF 屏幕录制工具
介绍: LICEcap 是一款简洁易用的动画屏幕录制软件,支持导出 GIF 动画图片格式,轻量级.高质量(每帧颜色数量可超过256).使用简单,录制过程中可以随意改变录屏范围. LICEcap 非常轻 ...
数据库同步工具，PanguSync后起之秀
随着数字化时代的快速发展,数据已经成为企业运营的核心.为了确保数据的准确性和一致性,数据库同步工具成为了企业不可或缺的工具.而在众多数据库同步工具中,PanguSync以其卓越的性能和强大的功能,逐渐 ...

用Python学线性代数：概率密度函数拟合

问题

distfit 简单又好用

示例

用Python学线性代数：概率密度函数拟合的更多相关文章

随机推荐

热门专题