卡方分布

简介

卡方分布是一种连续概率分布，常用于统计学中进行假设检验。它描述了在独立抽样中，每个样本的平方偏差之和的分布。卡方分布的形状由其自由度 (df) 参数决定，自由度越大，分布越平缓。

参数

卡方分布用两个参数来定义：

df：自由度，表示卡方分布的形状。自由度必须为正整数。

size：输出数组的形状。

公式

卡方分布的概率密度函数 (PDF) 为：

f(x) = (x^(df/2 - 1) * np.exp(-x/2)) / (2^(df/2) * Gamma(df/2))    for x >= 0

其中：

f(x)：表示在 x 点的概率密度。

x：非负实数。

df：自由度。

np.exp(-x/2)：指数函数。

Gamma(df/2)：伽马函数。

生成卡方分布数据

NumPy 提供了 random.chisquare() 函数来生成服从卡方分布的随机数。该函数接受以下参数：

df：自由度。

size：输出数组的形状。

示例：生成 10 个自由度为 5 的卡方分布随机数：

import numpy as np

data = np.random.chisquare(df=5, size=10)

print(data)

可视化卡方分布

Seaborn 库提供了便捷的函数来可视化分布，包括卡方分布。

示例：绘制 1000 个自由度为 5 的卡方分布随机数的分布图：

import seaborn as sns

import numpy as np

data = np.random.chisquare(df=5, size=1000)

sns.distplot(data)

plt.show()

练习

模拟 20 个自由度为 10 的卡方分布随机数，并绘制它们的分布图。
比较不同自由度下卡方分布形状的变化。
利用卡方分布来进行卡方检验，假设某枚硬币是公平的，即正面朝上的概率为 0.5。抛掷硬币 100 次，并计算正面朝上的次数是否服从二项分布。

解决方案

import seaborn as sns

import numpy as np

from scipy import stats

# 1. 模拟随机数并绘制分布图

data = np.random.chisquare(df=10, size=20)

sns.distplot(data)

plt.show()

# 2. 比较不同自由度下分布形状的变化

df_values = [2, 5, 10, 20]

for df in df_values:

    data = np.random.chisquare(df=df, size=1000)

    sns.distplot(data, label=f"df={df}")

plt.legend()

plt.show()

# 3. 进行卡方检验

heads = np.random.binomial(n=100, p=0.5)

chi2_stat, p_value = stats.chisquare(heads, f_exp=50)

print("卡方统计量:", chi2_stat)

print("p 值:", p_value)

# 由于 p 值大于 0.05，无法拒绝原假设，即可以认为硬币是公平的。

瑞利分布

简介

瑞利分布是一种连续概率分布，常用于描述信号处理和雷达系统中的幅度分布。它表示在一个随机变量的平方根服从指数分布时，该随机变量的分布。

参数

瑞利分布用一个参数来定义：

scale：尺度参数，控制分布的平坦程度。较大的尺度参数使分布更加平坦，两侧尾部更加分散。默认为 1。

公式

瑞利分布的概率密度函数 (PDF) 为：

f(x) = (x scale) / (scale^2 np.exp(-x^2 / (2 scale^2)))    for x >= 0

其中：

f(x)：表示在 x 点的概率密度。

x：非负实数。

scale：尺

Zipf分布

简介

Zipf分布，又称为Zeta分布，是一种离散概率分布，常用于描述自然语言、人口统计学、城市规模等领域中具有幂律特征的数据分布。它体现了“少数服从多数”的现象，即排名越靠前的元素出现的频率越高。

参数

Zipf分布用一个参数来定义：

a：分布参数，控制分布的形状。a越小，分布越偏向于少数元素，越接近幂律分布。默认为 2。

公式

Zipf分布的概率质量函数 (PMF) 为：

P(k) = 1 / (k ^ a)    for k >= 1

其中：

P(k)：表示第 k 个元素出现的概率。

k：元素的排名，从 1 开始。

a：分布参数。

生成Zipf分布数据

NumPy提供了random.zipf()函数来生成服从Zipf分布的随机数。该函数接受以下参数：

a：分布参数。

size：输出数组的形状。

示例：生成10个服从Zipf分布的随机数，分布参数为2：

import numpy as np

data = np.random.zipf(a=2, size=10)

print(data)

可视化Zipf分布

Seaborn库提供了便捷的函数来可视化分布，包括Zipf分布。

示例：绘制1000个服从Zipf分布的随机数的分布图，分布参数为2：

import seaborn as sns

import numpy as np

data = np.random.zipf(a=2, size=1000)

sns.distplot(data)

plt.show()

练习

模拟不同分布参数下Zipf分布形状的变化。
利用Zipf分布来模拟一个城市的规模分布，并计算排名前10的城市人口占总人口的比例。
比较Zipf分布与幂律分布的异同。

解决方案

import seaborn as sns

import numpy as np

# 1. 模拟不同分布参数下Zipf分布形状的变化

a_values = [1.5, 2, 2.5, 3]

for a in a_values:

    data = np.random.zipf(a=a, size=1000)

    sns.distplot(data, label=f"a={a}")

plt.legend()

plt.show()

2. 模拟城市规模分布并计算人口比例

population = np.random.zipf(a=2, size=100)

top10_population = population[:10].sum()

total_population = population.sum()

print("排名前10的城市人口:", top10_population)

print("排名前10的城市人口比例:", top10_population / total_population)

3. Zipf分布与幂律分布的比较

Zipf分布和幂律分布都描述了“少数服从多数”的现象，即排名越靠前的元素出现的频率越高。

但是，Zipf分布的参数化程度更高，可以更精确地描述不同领域的幂律现象。幂律分布则更通用，但缺乏Zipf分布对参数的控制能力。

具体来说，Zipf分布的PMF为：

P(k) = 1 / (k ^ a)

幂律分布的PMF为：

P(k) = C / k ^ alpha

其中，C为归一化常数。

可见，Zipf分布的参数a控制了分布的倾斜程度，而幂律分布的参数alpha则控制了分布的整体形状。

此外，Zipf分布通常用于描述离散数据，而幂律分布则可以用于描述离散和连续数据。

最后

为了方便其他设备和平台的小伙伴观看往期文章：

微信公众号搜索：Let us Coding，关注后即可获取最新文章推送

看完如果觉得有帮助，欢迎点赞、收藏、关注

卡方分布和 Zipf 分布模拟及 Seaborn 可视化教程的更多相关文章

Python - Seaborn可视化：图形个性化设置的几个小技巧
1 概述在可视化过程中,经常会对默认的制图效果不满意,希望能个性化进行各种设置. 本文通过一个简单的示例,来介绍seaborn可视化过程中的个性化设置.包括常用的设置,如: 设置图表显示颜色设置图 ...
国外大神制作的一个很棒的matplotlib 可视化教程
国外大神制作的一个很棒的matplotlib 可视化教程参考:https://www.machinelearningplus.com/plots/top-50-matplotlib-visualiz ...
PJ可能会考的模拟与枚举-自学教程
PJ可能会考的模拟与枚举-自学教程文/Pleiades_Antares 之前学校里看一个小可爱复习的时候偷偷听来着XD 简单记了一下重点吧,希望能对看官您有所帮助XD 以下⬇️是几个复习时讲过的题, ...
Darknet卷基层浅层特征可视化教程
目录 Darknet浅层可视化教程说明处理步骤使用python可视化txt文件 Darknet浅层可视化教程说明针对YOLO官方提供的c语言版的darknet进行了修改,添加了一些函数,进行 ...
Java生成-zipf分布的数据集（自定义倾斜度，用作spark data skew测试）
1.代码 import java.io.Serializable; import java.util.NavigableMap; import java.util.Random; import jav ...
用 IQ分布模拟图来测试浏览器的性能
今天天气太凉快,跟这个日历上属于夏天的那一页显得格格不入!就连我我床下那台废弃的ThinkPad,居然也十分透凉气,那外壳连我的体温高都没有,于是,我就开始想一个方法,让我那个废弃的电脑发热,顺便用它 ...
seaborn可视化特征的相关性
import seaborn as sn sn.heatmap(trainX.corr(),vmax=1,square=True)
seaborn可视化
文章来自https://blog.csdn.net/qq_33120943/article/details/76569756 详细教程可以查看官方额示例:http://seaborn.pydata.o ...
Levenberg-Marquardt优化和zipf分布
最近审论文和看报告中遇到LM优化和齐普夫分布,于是查了一下. LM方法是高斯牛顿迭代方法的改进,下面分别是高斯牛顿.齐普夫方法的公式: Δ=−(JfTJf)−1JfTf,Δ=−(JfTJf+λI)−1 ...
T分布、卡方分布、F分布
请参考: https://www.cnblogs.com/think-and-do/p/6509239.html

随机推荐

一个简单的开源消息中间件 FolkMQ v1.4.2 发布
功能简表角色功能生产者(客户端) 发布消息.定时消息(或叫延时).顺序消息.可过期消息.事务消息.支持 Qos0.Qos1 消费者(客户端) 订阅.取消订阅.消费-ACK(自动.手动) 服务端 ...
Node.js 中的事件循环机制
一.是什么在浏览器事件循环中,我们了解到javascript在浏览器中的事件循环机制,其是根据HTML5定义的规范来实现而在NodeJS中,事件循环是基于libuv实现,libuv是一个多平台的专 ...
mysql错误ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
企业实施定制鞋厂ERP软件需要注意哪些问题？
企业实施定制ERP软件是个复杂的管理系统工程,为了成功地为企业定制实施ERP软件,需要注意和解决几个关键的问题: (1) . 确立ERP系统实施和定制的决策者: (2) . 做好前期咨询与调研工作: ...
全面提升易用性：OpenClusterManagement 0.7 版本发布
简介:千呼万唤始出来,三月末 OpenClusterManagement 社区正式发布了 v0.7 版本.在新的版本有一系列新的功能特性欢迎感兴趣的读者体验探索,同时在这个版本中社区维护者对目前已有 ...
Fluid 给数据弹性一双隐形的翅膀 -- 自定义弹性伸缩
简介: 弹性伸缩作为 Kubernetes 的核心能力之一,但它一直是围绕这无状态的应用负载展开.而 Fluid 提供了分布式缓存的弹性伸缩能力,可以灵活扩充和收缩数据缓存. 它基于 Runtime ...
Spring Cloud Bus 消息总线介绍
简介: 本文配套可交互教程已登录阿里云知行动手实验室,PC 端登录 start.aliyun.com 在浏览器中立即体验. 作者 | 洛夜来源 | 阿里巴巴云原生公众号本文配套可交互教程已登录阿里云 ...
[FAQ] 如何避免过度依赖百度, 甚至超越百度
查找信息,你不依赖百度,势必要依赖其它. 那么如何超越百度搜索,也必须要站在巨人的肩膀上. 搜索市场已有不少巨头,最简单的超越办法是:站在所有巨人的肩膀上. Other:搜索的超越 Link:http ...
[FE] Quasar BEX 所有位置类型 types
科普:[FE] Quasar BEX 预览版指南 New Tab Quasar BEX 的默认类型是 New Tab,在新 tab 栏里打开内容. Dev Tools 也就是在开发者栏里面的内容. O ...
[FE] 关于网页的一些反爬手段的解析思路，比如 58 等
这里主要是贴一些资料,有兴趣的可以再深入研究,比如做一些自动化库. www.cnblogs.com/TRHX/p/11740616.html blog.csdn.net/DzzzzzZzzzz/art ...

卡方分布和 Zipf 分布模拟及 Seaborn 可视化教程

卡方分布

简介

参数

公式

生成卡方分布数据

可视化卡方分布

练习

解决方案

瑞利分布

简介

参数

公式

Zipf分布

简介

参数

公式

生成Zipf分布数据

可视化Zipf分布

练习

解决方案

2. 模拟城市规模分布并计算人口比例

3. Zipf分布与幂律分布的比较

最后

卡方分布和 Zipf 分布模拟及 Seaborn 可视化教程的更多相关文章

随机推荐

热门专题