1. 简介 因子分析是一种研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法. 因子分析模型是主成分分析的推广, 也是利用降维的思想, 将复杂的原始变量归结为少数几个综合因子的一种多变量统计分析方法. 1.1 应用 寻求变量的基本结构, 简化变量系统. 用于分类, 根据因子得分值, 在因子轴所构成的空间中将变量或者样本进行分类 (能够分析样品间差异的原因). 1.2 类型 R型因子分析: 研究变量之间的相关关系. Q型因子分析: 研究样本之间的相关关系. 2. 因子分…
pandas应用之分组因子暴露和分位数分析 首先感谢原书作者Mes McKinney和batteryhp网友的博文, 俺在此基础上继续探索python的神奇功能. 用A股的实际数据, 以书里的代码为蓝本, 做一些实证探索. 发现不少问题 pandas版本升级之后, 函数调用的方式必须相应地改变. 比如 pd.rolling_mean 升级为Series.rolling().mean()等等 tushare的数据与yahoo财经的数据格式上的差异, 需要规整化, 等等 至少会有两篇后续的博文详细记…
注:本人参考“裸睡的猪”公众号同名文章,学习使用. 一.目标 使用Python分析出国庆哪些旅游景点:好玩.便宜.人还少的地方,不然拍照都要抢着拍! 二.获取数据 爬取出行网站的旅游景点售票数据,反映出旅游景点的热度.这里选择爬取“去哪儿”网. 1.爬取单页数据 我们可以在哪去儿的门票页(http://piao.qunar.com/ticket/list.htm?keyword=)搜索:**国庆旅游景点**,就可以看到推荐的景点的一些信息,如:名称.地区.热度.销量.价格.等级.地理信息等等,信…
一.协方差矩阵 协方差矩阵为对称矩阵. 在高斯分布中,方差越大,数据分布越分散,方差越小发,数据分布越集中. 在协方差矩阵中,假设矩阵为二维,若第二维的方差大于第一维的方差,则在图像上的体现就是:高斯分布呈现一个椭圆形,且主轴对应的就是方差大的第二维度.简而言之,若对角线元素相等,则高斯分布的图形是圆形,反之则分布图形为椭圆形. 若协方差矩阵的非对角元素为0,则高斯分布图形平行于坐标轴,反之则不平行. 为什么当样本数量远小于特征向量的维数n时,协方差逆矩阵不存在(矩阵不满秩)? 在多变量高斯分布…
python分析Mysql慢查询.通过Python调用开源分析工具pt-query-digest生成json结果,Python脚本解析json生成html报告. #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/12 下午3:00 # @Author : Kionf # @Site : https://kionf.com # @Software: Sublime import subprocess import jso…
写在前面:圣诞刚过,弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下,缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用Python分析的吧! 昨天下午没事儿,随便听了下音乐,结果搜到了一份数据比较好玩,所以拿了来做个数据分享案例. 这份数据是由国外比较火的音乐软件spotify提供的,很有代表意义. 不过涉及到的指标都比较专业,我不是太懂,只能根据自己的理解去做分析,有懂音乐的朋友可以提出专业的看法. 这次的数据分析工具是Python,当然如果你Pyt…
用python分析数据难吗?某科技大学的教授这样说,很难,但要讲方法,主要是因为并不是掌握了基础,就能用python来做数据分析的. 所谓python的基础,也就是刚入门的python学习者,学习的基础语法,比如Python环境搭建.常量变量.运算符等等,对于大多数人来说,入门并掌握基础就已经是比较困难的了,还要用来做数据分析,到底如何才能真正学到自己想学的,并且应用呢? 第一:掌握python基础的内容 Python分析数据难吗?对于小白来说,Python在入门方面比其他语言要简单很多,即使没…
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:CDA数据分析师 豆瓣9.4分!这场线上演唱会到底多好看? 首先让我们看到豆瓣上的数据:截止到目前为止,五月天的这次线上演唱会共有10万余人进行了评价,目前豆瓣评分为9.4分,是非常高的成绩了. 豆瓣评分分布 进一步分析可以看到,评论中有68.4%的人给出了满分5星,其次24.2%的人给出了4星. 豆瓣评论词云图 豆瓣评论中大家都在说些什么呢?可以看到"太短&quo…
Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号是理想的.现在考虑这个信号: 一个挑战!这是遇到的信号质量的另一个极端.老实说,当将传感器连接到手指上时(在0到4000之间),通过测量产生了该信号.在此之后,手指中的血管需要立即适应传感器的压缩(大约4​​000-5000),此后信号变得稳定.在大约7500.9000和12000时,用力将传感器移…
Python分析离散心率信号(中) 一些理论和背景 心率信号不仅包含有关心脏的信息,还包含有关呼吸,短期血压调节,体温调节和荷尔蒙血压调节(长期)的信息.也(尽管不总是始终如一)与精神努力相关联,这并不奇怪,因为大脑是一个非常饥饿的器官,因此消耗了总葡萄糖的25%和氧气消耗的20%.如果活动增加,心脏需要更加努力地工作以保持其供应. 感兴趣的是这些措施可以被分为时间序列数据连接频域数据.如果熟悉傅立叶变换,则频率部分会很有意义.如果不是,请参阅维基百科页面具有很好的解释,并且对过程也非常直观.基…