python-计算数据的相关性

先解释下什么叫数据的相关性:

计算两个数组的平均值,如果两个数组中的两个值都大于平均值或者都小于平均值,则得到true. 如果一个大于平均值一个小于平均值,则得到false.最后计算true和false的个数.

比如,两个数组[1, 2, 3, 4] and [4, 5, 6, 7] , 得到 (4, 0). 因为 1 和 4 都低于他们所在数组的平均值, 2 和 5 也都低于他们所在数组的平均值, 3 和 6 都高于他们所在数组的平均值, 4 和 7 也都高于他们所在数组的平均值.所以计算结果为true的有4个,false的为0.

如果数组是[1, 2, 3, 4] and [7, 6, 5, 4], 那结果就是 (0, 4). 因为 1 低于他所在数组的平均值而 7 高于们所在数组的平均值, 其它几项也类似...

一个栗子:

比如有如下数据,20个城市的人均寿命和城市的gdp,计算寿命和gdp的相关性就是,计算是否寿命较高的城市,gdp也会较高,寿命较低,gdp也较低...就是说,gdp和寿命,是否相关...如果计算得到的true比较多,那就是表示是相关的,如果得到的false比较多,那就表示不相关.

countries = ['Albania', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',

             'Argentina', 'Armenia', 'Australia', 'Austria', 'Azerbaijan',

             'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus',

             'Belgium', 'Belize', 'Benin', 'Bhutan', 'Bolivia']

life_expectancy_values = [74.7,  75. ,  83.4,  57.6,  74.6,  75.4,  72.3,  81.5,  80.2,

                          70.3,  72.1,  76.4,  68.1,  75.2,  69.8,  79.4,  70.8,  62.7,

                          67.3,  70.6]

gdp_values = [ 1681.61390973,   2155.48523109,  21495.80508273,    562.98768478,

              13495.1274663 ,   9388.68852258,   1424.19056199,  24765.54890176,

              27036.48733192,   1945.63754911,  21721.61840978,  13373.21993972,

                483.97086804,   9783.98417323,   2253.46411147,  25034.66692293,

               3680.91642923,    366.04496652,   1175.92638695,   1132.21387981]

life_expectancy = pd.Series(life_expectancy_values)

gdp = pd.Series(gdp_values)

# 计算相关性的函数
def variable_correlation(pd_1, pd_2):

    pd_1_mean = pd_1.mean()

    pd_2_mean = pd_2.mean()

    
    # 都高于平均值或都低于平均值的,得到true,一个高一个低的,得到false 
　　 result_series = ((pd_1 > pd_1_mean) & \

                    (pd_2 > pd_2_mean)) | \

                    ((pd_1 < pd_1_mean) & \

                    (pd_2 < pd_2_mean))

    
    # 计算true的个数

    num_same_direction = result_series.sum()

    # 计算false的个数
　　 num_different_direction = len(result_series) - num_same_direction   

    return (num_same_direction,num_different_direction)

print(variable_correlation(life_expectancy,gdp))   

# 结果
(17,3)

说明寿命和gdp是相关的.

python-计算数据的相关性的更多相关文章

Python文章相关性分析---金庸武侠小说分析
百度到<金庸小说全集 14部>全(TXT)作者:金庸下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for li ...
python数据相关性分析（计算相关系数）
#-*- coding: utf-8 -*- #餐饮销量数据相关性分析计算相关系数 from __future__ import print_function import pandas as pd ...
相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
python相关性算法解决方案（rest/数据库/json/下载）
1. 场景描述一直做java,因项目原因,需要封装一些经典的算法到平台上去,就一边学习python,一边网上寻找经典算法代码,今天介绍下经典的相关性算法,算法原理就不介绍了,只从代码层面进行介绍,包 ...
Python文章相关性分析---金庸武侠小说分析-2018.1.16
最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 输出结果: 比较有意思的巧合是黄蓉使出打狗棒,郭靖就用了降龙十八掌,再后测试了名词的解析. 小说集可以百 ...
Python统计分析可视化库seaborn(相关性图，变量分布图，箱线图等等)
Visualization of seaborn seaborn[1]是一个建立在matplot之上,可用于制作丰富和非常具有吸引力统计图形的Python库.Seaborn库旨在将可视化作为探索和理 ...
pandas通过皮尔逊积矩线性相关系数（Pearson's r）计算数据相关性
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...
python相关性分析与p值检验
## 最近两天的成果 ''' ########################################## # # # 不忘初心砥砺前行. # # 418__yj # ########### ...
利用python的matplotlib处理计算数据
#!/usr/bin/python # -*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot as plt import ...
python之数据序列转换并同时计算数据
问题你需要在数据序列上执行聚集函数(比如 sum() , min() , max() ), 但是首先你需要先转换或者过滤数据解决方案一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式 ...

随机推荐

Linux默认日志含义
Linux系统日志: /var/log/secure∶ 记录登入系统存取资料的档案,例如 pop3, ssh, telnet, ftp 等都会记录在此档案中: /var/log/wtmp∶ 记录登入者 ...
mysql workbench图形化mysql管理工具
MYSQL官网也推出了针对Linux的图形化的连接工具-MySQL Workbench.MySQL Workbench不仅仅是一个简单的MySQL客户端.简而言之,Workbench是一个跨平台的 ( ...
Pinpoint - 应用性能管理(APM)平台实践之部署篇
0.0 前言国内的APM行业这两年刚刚起步,但是在国外却比较成熟了,并且由于这两年人力成本的快速提高,国内外涌现了几家非常不错的APM企业,例如APPdynamic,Dynamic,NewRelic ...
QQ通讯录VS360通讯录对新建信息界面中草稿的处理
在新建信息界面中,对草稿信息的处理. 1. QQ通讯录的处理是: 如果信息编辑框不为空,点击HOME键或者点击BACK键,保存草稿,同时结束新建信息界面. 如果收件人为空,也保存草稿,只是将收件人取名 ...
Docker 技巧：删除 Docker 所有镜像
删除所有未运行 Docker 容器 docker rm $(docker ps -a -q) 删除所有 Docker 镜像删除所有未打 tag 的镜像 docker rmi $(docker ima ...
uitableview做九宫格
1:创建实体 #import <Foundation/Foundation.h> @interface Shop : NSObject @property (nonatomic, copy ...
Java容器集合类的区别用法
Set,List,Map,Vector,ArrayList的区别 JAVA的容器---List,Map,Set Collection ├List │├LinkedList │├ArrayList │└ ...
Swift与C类型对应关系表
每一个 C 语言基本类型, Swift 都提供了与之对应的类型. 在 Swift 中调用 C 方法的时候,会用到这些类型: C 类型 Swift 对应类型别名 bool CBool Bool cha ...
常用Raspberry Pi周边传感器的使用教程(转)
转:http://bbs.xiaomi.cn/thread-7797152-1-1.html 在Raspberry Pi 的使用和开发过程中,你可能时常需要一些硬件和传感器等来支持你的开发工作,例如, ...
php数组使用json_encode函数中文被编码成null的原因和解决办法
大写的囧,提客户处理问题,前端的APP一直在叽叽咂咂,说收到的值是null,弄了半天原来是这个问题,记录下吧 json格式在开发中用的十分广泛.在php中json_encode函数可以直接将数组转成 ...

python-计算数据的相关性

python-计算数据的相关性的更多相关文章

随机推荐

热门专题