『Plotly实战指南』--散点图绘制进阶篇
在数据分析的世界里,散点图是一种极为重要的可视化工具。
它能够直观地展示两个或多个变量之间的关系,帮助我们快速发现数据中的模式、趋势和异常点。
无论是探索变量之间的相关性,还是寻找数据中的潜在规律,散点图都扮演着不可或缺的角色。
与传统的静态图表不同,Plotly 绘制的散点图可以通过鼠标悬停、缩放和拖动等交互操作,让用户更深入地探索数据细节。
本文旨在探讨使用 Plotly 绘制散点图的高级技巧,包括多变量散点图的绘制、趋势分析方法的应用,以及如何通过这些技巧提升数据分析与可视化的能力。
1. 多变量散点图
1.1. 气泡图
气泡图是一种扩展的散点图,通过引入第三个维度(通常是气泡的大小或颜色)来表示额外的信息,适用于展示三个或更多变量之间的关系。
绘制气泡图时,除了基本的 x、y 轴数据外,还需要定义气泡的大小(通常通过 size 参数)和颜色(通过 color 参数)。
这样,气泡图可以在二维图表中同时表达4个属性。
import plotly.express as px
import pandas as pd
# 示例数据
data = pd.DataFrame(
{
"x": [1, 2, 3, 4, 5],
"y": [10, 11, 12, 13, 14],
"size": [10, 20, 30, 40, 50],
"color": ["A", "B", "A", "B", "A"],
}
)
fig = px.scatter(
data,
x="x",
y="y",
size="size",
color="color",
hover_name="color",
log_x=True,
size_max=60,
)
fig.show()

还可以通过调整颜色映射、气泡大小范围、添加标签等方式来美化气泡图,使其更加直观易懂。
1.2. 散点矩阵图
散点矩阵图是一种同时展示多个变量之间两两关系的图表,它将多个散点图排列成矩阵形式,每个单元格展示一对变量之间的散点图。
这种图表非常适合探索多变量数据之间的相关性,帮助我们快速发现变量之间的线性或非线性关系。
下面的示例中我们使用Plotly中自带的鸢尾花数据集,通过散点矩阵图可同时观察:
- 花瓣长度与宽度的相关性
- 不同花种在各维度的分布差异
import plotly.express as px
import plotly.figure_factory as ff
df = px.data.iris()
fig = ff.create_scatterplotmatrix(
df,
diag="histogram",
colormap="Viridis", # 对角线显示直方图
width=800,
height=800,
)
fig.update_layout(title="鸢尾花特征矩阵图")
fig.show()

通过这个图,我们可以分析鸢尾花不同属性之间的关联关系。
散点矩阵图的优点在于能够同时展示多个变量之间的关系,信息量大,并且有助于快速发现变量之间的相关性。
不过,当变量数量较多时,图表可能会显得过于复杂,难以解读,这点需要注意。
而且它对于非线性关系的展示效果也有限。
2. 散点图趋势分析法
2.1. 回归分析
回归线是散点图中用于展示变量之间趋势关系的重要工具,
回归线通常是指线性回归模型的拟合线,用于量化变量之间的线性关系。
下面通过生成一些测试数据,通过线性模型训练之后,根据训练结果绘制散点数据的回归线。
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from sklearn.linear_model import LinearRegression
# 生成示例数据
data = pd.DataFrame({
'x': np.linspace(0, 10, 100),
'y': 2 * np.linspace(0, 10, 100) + 3 + np.random.normal(0, 1, 100)
})
# 线性回归
# 拟合线性模型
model = LinearRegression()
model.fit(data[['x']], data['y'])
data['y_pred_linear'] = model.predict(data[['x']])
# 创建散点图
fig = go.Figure()
fig.add_trace(go.Scatter(x=data['x'], y=data['y'], mode='markers', name='原始数据'))
fig.add_trace(go.Scatter(x=data['x'], y=data['y_pred_linear'], mode='lines', name='线性回归线'))
# 显示图形
fig.show()

回归线可以很好的表达数据的变化趋势。
对于非线性的模型,也可以绘制对应的回归线,比如下面示例中采用的多项式回归模型训练,训练结果也可以绘制回归线。
import plotly.graph_objects as go
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
# 多项式回归
# 多项式特征转换
poly = PolynomialFeatures(degree=3)
X_poly = poly.fit_transform(data[['x']])
model_poly = LinearRegression()
model_poly.fit(X_poly, data['y'])
data['y_pred_poly'] = model_poly.predict(X_poly)
fig = go.Figure()
fig.add_trace(go.Scatter(x=data['x'], y=data['y'], mode='markers', name='原始数据'))
fig.add_trace(go.Scatter(x=data['x'], y=data['y_pred_linear'], mode='lines', name='线性回归线'))
fig.add_trace(go.Scatter(x=data['x'], y=data['y_pred_poly'], mode='lines', name='多项式回归线'))
# 显示图形
fig.show()

两条回归线差不多重合了。(红色是线性回归,青色的是多项式回归)
2.2. 平滑处理
平滑算法用于处理散点图中的噪声数据,使数据的趋势更加清晰,通过平滑处理,可以更好地观察数据的长期趋势,而忽略短期的波动。
常见平滑算法有移动平均(通过计算一定窗口内的平均值来平滑数据)和Savitzky-Golay 滤波(一种基于多项式拟合的平滑算法)
在Plotly中,可以通过自定义函数或利用现有库(如 SciPy)来实现平滑处理并绘制曲线。
import plotly.express as px
import numpy as np
from scipy.signal import savgol_filter
# 示例数据
data = px.data.gapminder().query("country=='Canada'")
y = data["gdpPercap"]
x = np.arange(len(y))
y_smooth = savgol_filter(y, window_length=7, polyorder=2)
fig = px.scatter(data, x=x, y=y)
fig.add_scatter(x=x, y=y_smooth, mode="lines", name="平滑曲线")
fig.show()

3. 总结
本文主要介绍如何使用 Plotly 绘制散点图的高级技巧,包括多变量散点图的绘制(如气泡图、散点矩阵图)和趋势分析方法(如拟合曲线、回归线、平滑算法)。
这些技巧不仅提升了数据分析的维度和深度,还通过交互式可视化增强了数据探索的效率和乐趣。
『Plotly实战指南』--散点图绘制进阶篇的更多相关文章
- 『Numpy学习指南』Matplotlib绘图
数据生成: import numpy as np import matplotlib.pyplot as plt func = np.poly1d(np.array([,,,])) func1 = f ...
- 『Numpy学习指南』排序&索引&抽取函数介绍
排序: numpy.lexsort(): numpy.lexsort()是个排字典序函数,因为很有意思,感觉也蛮有用的,所以单独列出来讲一下: 强调一点,本函数只接受一个参数! import nump ...
- Chrome开发者工具不完全指南(二、进阶篇)
上篇向大家介绍完了基础功能篇,这次分享的是Chrome开发工具中最有用的面板Sources. Sources面板几乎是我最常用到的Chrome功能面板,也是在我看来决解一般问题的主要功能面板.通常只 ...
- Apache Beam实战指南 | 大数据管道(pipeline)设计及实践
Apache Beam实战指南 | 大数据管道(pipeline)设计及实践 mp.weixin.qq.com 策划 & 审校 | Natalie作者 | 张海涛编辑 | LindaAI 前 ...
- 【阿里云产品公测】以开发者角度看ACE服务『ACE应用构建指南』
作者:阿里云用户mr_wid ,z)NKt# @I6A9do 如果感觉该评测对您有所帮助, 欢迎投票给本文: UO<claV RsfTUb)< 投票标题: 28.[阿里云 ...
- 2017-2018-2 20155303『网络对抗技术』Exp6:信息收集与漏洞扫描
2017-2018-2 20155303『网络对抗技术』 Exp6:信息收集与漏洞扫描 --------CONTENTS-------- 一.原理与实践说明 1.实践内容 2.基础问题 二.实践过程记 ...
- 2018-2019-2 20165316 『网络对抗技术』Exp3:免杀原理与实践
2018-2019-2 20165316 『网络对抗技术』Exp3:免杀原理与实践 一 免杀原理与实践说明 (一).实验说明 任务一:正确使用msf编码器,msfvenom生成如jar之类的其他文件, ...
- 2017-2018-2 20155303『网络对抗技术』Final:Web渗透获取WebShell权限
2017-2018-2 『网络对抗技术』Final:Web渗透获取WebShell权限 --------CONTENTS-------- 一.Webshell原理 1.什么是WebShell 2.We ...
- 2017-2018-2 20155303 『网络对抗技术』Exp3:免杀原理与实践
2017-2018-2 20155303 『网络对抗技术』Exp3:免杀原理与实践 --------CONTENTS-------- 1. 免杀原理与实践说明 实验说明 基础问题回答 2. 使用msf ...
- 2017-2018-2 20155303『网络对抗技术』Exp1:PC平台逆向破解
2017-2018-2 『网络对抗技术』Exp1:PC平台逆向破解 --------CONTENTS-------- 1. 逆向及Bof基础实践说明 2. 直接修改程序机器指令,改变程序执行流程 3. ...
随机推荐
- git撤销远已经push到程服务器上某次提交
git撤销远已经push到程服务器上某次提交 问题: 不小心把一次错误的代码push到远程服务器上的分支上,或者没有merge强制将本地的方法push到git服务器上. 解决方法: 输入 git lo ...
- 后端开发之chrome开发者模式-copy
1. 场景描述 java开发前后端分离模式越来越流行,后端人员可以直接使用swagger进行接口调试(前后端分离之Swagger2),但是调试的时候,需要设置入参,假如该模块不是软件老王开发的,接别人 ...
- 学Shiro完结版-2
第四章 INI配置--<跟我学Shiro> 之前章节我们已经接触过一些INI配置规则了,如果大家使用过如Spring之类的IoC/DI容器的话,Shiro提供的INI配置也是非常类似的,即 ...
- stdio.h的缓冲机制解析
1. 令人迷惑的printf() 在C语言中,由于stdio.h中的缓冲机制,printf的输出通常会受到缓冲区的影响. 这种影响可能非常微妙,并常常令人疑惑,比如我们来看下面这段代码 #includ ...
- 移动端如何自动适配px
<script type="text/javascript"> (function(doc, win) { var docEl = doc.documentElemen ...
- 一个 .NET 开源、免费、功能强大的Windows应用卸载神器
前言 今天大姚给大家分享一个基于 .NET 开源(Apache License).免费.功能强大的Windows应用卸载神器:Bulk Crap Uninstaller. 项目介绍 Bulk Crap ...
- SqlServer还原数据库出现“无法在服务器上访问指定的路径或文件”提示的解决办法
1.问题描述 出现的错误信息如下图所示: 2.解决办法 打开SqlServer配置管理器,点击SQL Server服务,点击右侧的"SQL Server (MSSQLSERVER)" ...
- DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
字数:约3200字|预计阅读时间:8分钟 (调试着R1的API接口,看着控制台瀑布般流淌的思维链日志)此刻我仿佛看到AlphaGo的棋谱在代码世界重生--这是属于推理模型的AlphaZero时刻. D ...
- 本地部署DeepSeek-R1并使用自定义的知识库AnythingLLM
一.基础信息 1.概述 以下是私有化部署方案的优势: 性能卓越:提供媲美商业模型的对话交互体验 环境隔离:完全离线运行,杜绝数据外泄风险 数据可控:完全掌控数据资产,符合合规要求 2.硬件环境 CPU ...
- Flink内存解释
一.JobManager内存 JobManager 是 Flink 集群的控制单元. 它由三种不同的组件组成:ResourceManager.Dispatcher 和每个正在运行作业的 JobMast ...