NumPy 随机数据分布与 Seaborn 可视化详解
随机数据分布
什么是数据分布?
数据分布是指数据集中所有可能值出现的频率,并用概率来表示。它描述了数据取值的可能性。
在统计学和数据科学中,数据分布是分析数据的重要基础。
NumPy 中的随机分布
NumPy 的 random
模块提供了多种方法来生成服从不同分布的随机数。
生成离散分布随机数
choice(a, p, size)
:从数组 a
中随机选择元素,并根据概率 p
进行选择。
a
:源数组,包含所有可能值。
p
:每个值的概率数组,总和必须为 1。
size
:输出数组的形状。
示例:生成 100 个随机数,其中 3 出现的概率为 0.2,5 出现的概率为 0.4,7 出现的概率为 0.3,9 出现的概率为 0.1:
import numpy as np
x = np.random.choice([3, 5, 7, 9], p=[0.2, 0.4, 0.3, 0.1], size=100)
print(x)
生成连续分布随机数
NumPy 提供了多种方法来生成服从不同连续分布的随机数,例如正态分布、均匀分布、指数分布等。
randn(size)
:生成服从标准正态分布的随机数。
rand(size)
:生成服从均匀分布的随机数。
beta(a, b, size)
:生成服从 Beta 分布的随机数。
gamma(shape, scale, size)
:生成服从 Gamma 分布的随机数。
poisson(lam, size)
:生成服从泊松分布的随机整数。
示例:生成 10 个服从标准正态分布的随机数:
import numpy as np
x = np.random.randn(10)
print(x)
随机排列
洗牌数组
shuffle(arr)
:对数组 arr
进行随机洗牌,修改原始数组。
示例:随机洗牌数组 [1, 2, 3, 4, 5]
:
import numpy as np
from numpy.random import shuffle
arr = np.array([1, 2, 3, 4, 5])
shuffle(arr)
print(arr)
生成数组的随机排列
permutation(arr)
:生成数组 arr
元素的随机排列,不修改原始数组。
示例:生成数组 [1, 2, 3, 4, 5]
的随机排列:
import numpy as np
from numpy.random import permutation
arr = np.array([1, 2, 3, 4, 5])
x = permutation(arr)
print(x)
练习
- 使用
choice
方法生成 200 个随机数,其中 1 出现的概率为 0.1,2 出现的概率为 0.2,3 出现的概率为 0.7。 - 生成 10 个服从指数分布的随机数。
- 对数组
[10, 20, 30, 40, 50]
进行随机洗牌。 - 生成数组
[6, 7, 8, 9, 10]
元素的随机排列。
解决方案
import numpy as np
from numpy.random import choice, permutation, expon
# 1. 使用 choice 方法生成随机数
random_numbers = choice([1, 2, 3], p=[0.1, 0.2, 0.7], size=200)
print(random_numbers)
# 2. 生成服从指数分布的随机数
exponential_randoms = expon(scale=1, size=10)
print(exponential_randoms)
# 3. 对数组进行随机洗牌
arr = np.array([10, 20, 30, 40, 50])
shuffle(arr)
print(arr)
# 4. 生成数组的随机排列
random_permutation = permutation([6, 7, 8, 9, 10])
print(random_permutation)
使用 Seaborn 可视化分布
简介
Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库,用于创建统计图表。它提供了一系列高级绘图函数,可以轻松创建美观且信息丰富的统计图形。
安装 Seaborn
如果您已经安装了 Python 和 pip,可以使用以下命令安装 Seaborn:
pip install seaborn
如果您使用的是 Jupyter Notebook,可以使用以下命令安装 Seaborn:
!pip install seaborn
绘制分布图
分布图是一种可视化数据分布的图表。它显示了数据集中每个值的出现频率。
在 Seaborn 中,可以使用 sns.distplot()
函数绘制分布图。该函数接受以下参数:
data
:要绘制分布的数据。可以是数组、列表或 Pandas 数据框。
hist
:如果为 True
(默认),则绘制直方图;如果为 False
,则只绘制密度曲线。
kde
:如果为 True
(默认),则使用核密度估计 (KDE) 来估计数据的分布;如果为 False
,则使用直方图。
bins
:用于创建直方图的直方图数量。
norm
:用于规范分布的类型。例如,norm='kde'
将使用 KDE 来规范分布。
示例:绘制正态分布
以下示例演示如何使用 Seaborn 绘制正态分布:
import seaborn as sns
import numpy as np
# 生成随机数据
data = np.random.randn(1000)
# 绘制分布图
sns.distplot(data)
plt.show()
该代码将生成 1000 个服从标准正态分布的随机数,并使用 Seaborn 绘制它们的分布图。
示例:绘制自定义分布
以下示例演示如何绘制自定义分布:
import seaborn as sns
import numpy as np
# 生成自定义数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 5, 5, 6, 7, 7, 8, 9]
# 绘制分布图
sns.distplot(data, hist=False, kde=False)
plt.show()
该代码将生成一个包含重复值的自定义数据数组,并使用 Seaborn 绘制它们的分布图,不显示直方图或密度曲线。
练习
- 生成 500 个服从均匀分布的随机数,并绘制它们的分布图。
- 生成 1000 个服从指数分布的随机数,并绘制它们的分布图。
- 从以下数据中绘制分布图:
data = [23, 37, 43, 29, 31, 32, 36, 27, 31, 33, 34, 25, 27, 28, 42, 38, 27, 27, 33, 31, 26, 29, 31, 35, 33, 30, 30, 32, 36, 28, 31, 33, 38, 29, 31, 31, 34, 36, 26, 25, 26, 34, 37, 28, 36, 31, 29, 31, 27, 28, 32, 37, 30, 33, 33, 27, 31, 32, 32, 36, 25, 32, 35, 37, 37, 30, 31, 34, 33, 29, 32, 31, 36, 26, 29, 31, 37, 28, 28, 37, 31, 32, 36, 33, 27, 31, 32, 33, 32, 32, 30, 27, 36, 38, 35, 26, 32, 37, 31, 30, 33, 30, 27,
## 最后
为了方便其他设备和平台的小伙伴观看往期文章:
微信公众号搜索:`Let us Coding`,关注后即可获取最新文章推送
看完如果觉得有帮助,欢迎点赞、收藏、关注
NumPy 随机数据分布与 Seaborn 可视化详解的更多相关文章
- Pandas系列(十二)-可视化详解
目录 1. 折线图 2. 柱状图 3. 直方图 4. 箱线图 5. 区域图 6. 散点图 7. 饼图六边形容器图 数据分析的结果不仅仅只是你来看的,更多的时候是给需求方或者老板来看的,为了更直观地看出 ...
- Numpy数组的组合与分割详解
在介绍数组的组合和分割前,我们需要先了解数组的维(ndim)和轴(axis)概念. 如果数组的元素是数组,即数组嵌套数组,我们就称其为多维数组.几层嵌套就称几维.比如形状为(a,b)的二维数组就可以看 ...
- coco标注信息与labelme标注信息的详解、相互转换及可视化
引言 在做实例分割或语义分割的时候,我们通常要用labelme进行标注,labelme标注的json文件与coco数据集已经标注好的json文件的格式和内容有差异.如果要用coco数据集的信息,就要对 ...
- 详解Python Streamlit框架,用于构建精美数据可视化web app,练习做个垃圾分类app
今天详解一个 Python 库 Streamlit,它可以为机器学习和数据分析构建 web app.它的优势是入门容易.纯 Python 编码.开发效率高.UI精美. 上图是用 Streamlit 构 ...
- 机器学习——随机森林,RandomForestClassifier参数含义详解
1.随机森林模型 clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=4) rf_clf = c ...
- 可视化的Redis数据库管理工具redis-desktop-manager的初步使用(图文详解)
不多说,直接上干货! 无论是Linux 还是 Windows里安装Redis, Windows里如何正确安装Redis以服务运行(博主推荐)(图文详解) Windows下如何正确下载并安装可视化的Re ...
- Windows下如何正确下载并安装可视化的Redis数据库管理工具(redis-desktop-manager)(图文详解)
不多说,直接上干货! Redis Desktop Manager是一个可视化的Redis数据库管理工具,使用非常简单. 官网下载:https://redisdesktop.com/down ...
- qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)
原博主博客地址:http://blog.csdn.net/qq21497936本文章博客地址:http://blog.csdn.net/qq21497936/article/details/78516 ...
- 给Clouderamanager集群里安装可视化分析利器工具Hue步骤(图文详解)
扩展博客 以下,是我在手动的CDH版本,安装Hue. CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cdh5.5.4.gz + hue-3.9.0-cdh5.5.4.tar.gz)(博主 ...
- 给Ambari集群里安装可视化分析利器工具Hue步骤(图文详解)
扩展博客 以下,是我在手动的CDH版本平台下,安装Hue. CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cdh5.5.4.gz + hue-3.9.0-cdh5.5.4.tar.gz) ...
随机推荐
- C# 布尔值和条件语句:入门指南和实用示例
C# 布尔值 在编程中,通常需要一个只能有两个值之一的数据类型,比如: 是 / 否 开 / 关 真 / 假 为此,C# 有一个 bool 数据类型,可以取 true 或 false 的值. 布尔值 使 ...
- 在 macOS Big Sur 上安装 MySQL 8.x Compressed TAR Archive
因个人能力有限,文章难免存在错误,望斧正,感谢. 版本: macOS 11.6 Intel版本 MySQL 8.0.26 Compressed TAR Archive 一.准备所需文件 前往 MySQ ...
- redis 简单整理——内存的管理[二十六]
前言 redis 是一个内存型数据库,那么就需要重点关注一下内存了. 正文 理解Redis内存,首先需要掌握Redis内存消耗在哪些方面.有些内存消 耗是必不可少的,而有些可以通过参数调整和合理使用来 ...
- python爬虫实战以及数据可视化
需要准备的环境: (1)python3.8 (2)pycharm (3)截取网络请求信息的工具,有很多,百度一种随便用即可. 第一:首先通过python的sqlalchemy模块,来新建一个表. 第二 ...
- tinyproxy轻量代理服务器安装
tinyproxy是一款用于POSIX操作系统的轻量级HTTP/HTTPS代理服务程序,非常小巧快速,便于部署,性能也不差,因此适合在嵌入式设备上使用,tinyproxy的仓库和文档链接分别是: 仓库 ...
- 力扣504(java)-七进制数(简单)
题目: 给定一个整数 num,将其转化为 7 进制,并以字符串形式输出. 示例 1: 输入: num = 100输出: "202"示例 2: 输入: num = -7输出: &qu ...
- 阿里云全站加速DCDN重磅发布!打造新一代加速引擎
简介: 新一代的加速引擎DCDN,安全.高效.可计算 在数字化转型变革逐步深入的当下,安全高效成为企业上云.全球化部署的关键需求. 随着应用场景复杂度不断提升.业务需求差异化发展,为了给企业提供更完善 ...
- 阿里云架构师梁旭:MES on 云盒,助力客户快速构建数字工厂
简介: 四大优势:一站式交付.业务低延时.数据本地驻留.多工厂统一运维 2022年5月18日,在"云上数字工厂与中小企业数字化转型创新论坛"暨"鼎捷MES & 阿 ...
- 5月25日,阿里云开源 PolarDB-X 将迎来重磅升级发布
简介:2022年5月25日,阿里云开源 PolarDB-X 将升级发布新版本!PolarDB-X 从 2009 年开始服务于阿里巴巴电商核心系统, 2015 年开始对外提供商业化服务,并于 2021 ...
- 基于MaxCompute SQL 的半结构化数据处理实践
简介: MaxCompute作为企业级数据仓库服务,集中存储和管理企业数据资产.面向数据应用处理和分析数据,将数据转换为业务洞察.通过与阿里云内.外部服务灵活组合,可构建丰富的数据应用.全托管的数据 ...