Python学习笔记三:数据特征分析
完成数据清理后,下面通过图表展开对数据的分析。
1.前期初判(分布分析):
1)判断分组区间:
# a.散点图:
plt.scatter(data[字段1],data['字段2'],
s = data[字段3], # 显示大小
c = data[字段4], # 显示颜色
alpha = 0.4, cmap = 'Reds')
# b.直方图:
data[字段].hist(bins=10)
2)求出目标字段下频率分布的统计量:频数,频率,累计频率:
pandas.cut([字段],区间数)
pandas.cut.value_count:区间计数
df.rename(columns ={columnname:'新列名'}, inplace = True) :字段重命名
3)可视化:
# a. bar图
df.style.bar(subset=['频率','累计频率'], color='green',width=100)
# b. 直方图:
df['频率'].plot(kind = 'bar',width = 0.8,figsize = (12,2), rot = 0, color = 'k', grid = True, alpha = 0.5)
plt.title('参考总价分布频率直方图')
# c. 饼图:
plt.pie(df['频数'],labels = df.index, autopct='%.2f%%', shadow = True), plt.axis('equal')
2.对比分析
1)结构化分析:折现图、多系列柱状图、柱状图堆叠图+差值折线图
在分组基础上,各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重,反映总体的内部结构。
举例:A产品、B产品的销售情况、消费者类型结构。
2)比例分析:面积图
在分组的基础上,将总体不同部分的指标数值进行对比,其相对指标一般称为“比例相对数”。
比例相对数 = 总体中某一部分数值 / 总体中另一部分数值。
举例: 线上销售Vs线下销售
3)空间比较分析(横向对比分析):柱状图
同类现象在同一时间不同空间的指标数值进行对比,反应同类现象在不同空间上的差异程度和现象发展不平衡的状况
空间比较相对数 = 甲空间某一现象的数值 / 乙空间同类现象的数值
举例:微信/支付宝等指支付方式在不同城市的份额
4)动态对比分析(纵向对比分析)
同一现象在不同时间上的指标数值进行对比,反应现象的数量随着时间推移而发展变动的程度及趋势
最基本方法,计算动态相对数 → 发展速度
动态相对数 = 某一现象的报告期数值 / 同一现象的基期数值
基期:用来比较的基础时期
报告期:所要研究的时期,又称计算期
Python学习笔记三:数据特征分析的更多相关文章
- Python 学习笔记三
笔记三:函数 笔记二已取消置顶链接地址:http://www.cnblogs.com/dzzy/p/5289186.html 函数的作用: 給代码段命名,就像变量給数字命名一样 可以接收参数,像arg ...
- webdriver(python) 学习笔记三
知识点:简单的对象定位 对象的定位应该是自动化测试的核心,要想操作一个对象,首先应该识别这个对象.一个对象就是一个人一样,他会有各种的特征(属性),如比我们可以通过一个人的身份证号,姓名,或者他住在哪 ...
- python学习笔记(三)高级特性
一.切片 list.tuple常常截取某一段元素,截取某一段元素的操作很常用 ,所以python提供了切片功能. L=['a','b','c','d','e','f'] #取索引0,到索引3的元素,不 ...
- python学习笔记(三):文件操作和集合
对文件的操作分三步: 1.打开文件获取文件的句柄,句柄就理解为这个文件 2.通过文件句柄操作文件 3.关闭文件. 文件基本操作: f = open('file.txt','r') #以只读方式打开一个 ...
- Python学习笔记:数据的处理
上次的学习中有个split函数,照着head first Python上敲一遍代码: >>> with open('james.txt') as jaf: data=jaf.read ...
- python学习笔记3_数据载入、存储及文件格式
一.丛mysql数据库中读取数据 import pandas as pdimport pymysqlconn = pymysql.connect( host = '***', user = '***' ...
- python学习笔记三 文件操作(基础篇)
文件操作 打开文件 open(name[,mode[,buffering]]) open函数使用一个文件名作为强制参数,然后返回一个文件对象.[python 3.5 把file()删除掉] w ...
- python学习笔记三 深浅copy,扩展数据类型(基础篇)
深浅copy以及赋值 对于字符串和数字而言,赋值.浅拷贝和深拷贝无意义,因为其永远指向同一个内存地址. import copy n1 = #n1 = 'hahahaha' #赋值n2 = n1#浅co ...
- python学习笔记三--字典
一.字典: 1. 不是序列,是一种映射, 键 :值的映射关系. 2. 没有顺序和位置的概念,只是把值存到对应的键里面. 3. 通过健而不是通过偏移量来读取 4. 任意对象的无序集合 5. 可变长,异构 ...
随机推荐
- 如何在 CentOS 7 / RHEL 7 终端服务器上安装 KVM
如何在 CnetOS 7 或 RHEL 7(Red Hat 企业版 Linux)服务器上安装和配置 KVM(基于内核的虚拟机)?如何在 CentOS 7 上设置 KVM 并使用云镜像 / cloud- ...
- Spring Cloud(八):使用Spring Cloud Bus来实现配置动态更新
使用Spring Cloud Config我们能实现服务配置的集中化管理,在服务启动时从Config Server获取需要的配置属性.但如果在服务运行过程中,我们需要将某个配置属性进行修改,比如将验证 ...
- 微信小程序入门笔记-审核上线(5)
1.点击上传 2.填写版本号.备注 3.https://mp.weixin.qq.com/回到微信公众平台,点击版本管理就可以看到开发版本 4.点击提交审核(提交之前填写小程序基本资料,才可提交审核) ...
- Zookeeper分布式协调即分布式锁机制
主要用到的Zookeeper机制: 临时+有序节点,节点watch机制 过程: 发生分布式锁竞争时,参与竞争的各个客户端服务都到Zookeeper的同一父节点(代表着同一把锁)下建立自己的临时+有序子 ...
- 浅析设计模式之mvc、mvp、mvvm
mvc.mvvm.mvp是常见的设计模式,也是常见的设计思想,现对它们进行简要的归纳总结 三种模式的介绍 1.MVC:经典设计模式 View 传送指令到 Controller(控制器) Control ...
- JAVA 线程池原理
如果并发的请求数量非常多,但每个线程执行的时间很短,这样就会频繁的创建和销毁线程,如此一来会大大降低系统的效率.这就是线程池的目的了.线程池为线程生命周期的开销和资源不足问题提供了解决方案.通过对多个 ...
- PHP操作mysql(mysqli + PDO)
[Mysqli面向对象方式操作数据库] 添加.修改.删除数据 $mysqli ','test'); $mysqli->query('set names utf8'); //添加数据 $resul ...
- win10下载
Win10 简体中文正式版 微软MSDN官方ISO镜像下载(2020年1月21日更新) 官方地址:https://www.microsoft.com/zh-cn/software-download/w ...
- layui导出表格设置常用函数
1.设置导出单元格为数字格式 字段名: function (value, line, data) { return { v: value, t: 'n' } }
- WPF 控件功能重写(ComboBox回车搜索)
前言:在我们日常使用软件的时候,Combobox会让用户很方便的选择出需要的东西,但是ComboBox中的下拉行数过多时就不那么好用了. 如果在项目中有很多这样的ComboBox控件的话,我们可以考虑 ...