python-计算数据的相关性

先解释下什么叫数据的相关性:

计算两个数组的平均值,如果两个数组中的两个值都大于平均值或者都小于平均值,则得到true. 如果一个大于平均值一个小于平均值,则得到false.最后计算true和false的个数.

比如,两个数组[1, 2, 3, 4] and [4, 5, 6, 7] , 得到 (4, 0). 因为 1 和 4 都低于他们所在数组的平均值, 2 和 5 也都低于他们所在数组的平均值, 3 和 6 都高于他们所在数组的平均值, 4 和 7 也都高于他们所在数组的平均值.所以计算结果为true的有4个,false的为0.

如果数组是[1, 2, 3, 4] and [7, 6, 5, 4], 那结果就是 (0, 4). 因为 1 低于他所在数组的平均值而 7 高于们所在数组的平均值, 其它几项也类似...

一个栗子:

比如有如下数据,20个城市的人均寿命和城市的gdp,计算寿命和gdp的相关性就是,计算是否寿命较高的城市,gdp也会较高,寿命较低,gdp也较低...就是说,gdp和寿命,是否相关...如果计算得到的true比较多,那就是表示是相关的,如果得到的false比较多,那就表示不相关.

countries = ['Albania', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',

             'Argentina', 'Armenia', 'Australia', 'Austria', 'Azerbaijan',

             'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus',

             'Belgium', 'Belize', 'Benin', 'Bhutan', 'Bolivia']

life_expectancy_values = [74.7,  75. ,  83.4,  57.6,  74.6,  75.4,  72.3,  81.5,  80.2,

                          70.3,  72.1,  76.4,  68.1,  75.2,  69.8,  79.4,  70.8,  62.7,

                          67.3,  70.6]

gdp_values = [ 1681.61390973,   2155.48523109,  21495.80508273,    562.98768478,

              13495.1274663 ,   9388.68852258,   1424.19056199,  24765.54890176,

              27036.48733192,   1945.63754911,  21721.61840978,  13373.21993972,

                483.97086804,   9783.98417323,   2253.46411147,  25034.66692293,

               3680.91642923,    366.04496652,   1175.92638695,   1132.21387981]

life_expectancy = pd.Series(life_expectancy_values)

gdp = pd.Series(gdp_values)

# 计算相关性的函数
def variable_correlation(pd_1, pd_2):

    pd_1_mean = pd_1.mean()

    pd_2_mean = pd_2.mean()

    
    # 都高于平均值或都低于平均值的,得到true,一个高一个低的,得到false 
　　 result_series = ((pd_1 > pd_1_mean) & \

                    (pd_2 > pd_2_mean)) | \

                    ((pd_1 < pd_1_mean) & \

                    (pd_2 < pd_2_mean))

    
    # 计算true的个数

    num_same_direction = result_series.sum()

    # 计算false的个数
　　 num_different_direction = len(result_series) - num_same_direction   

    return (num_same_direction,num_different_direction)

print(variable_correlation(life_expectancy,gdp))   

# 结果
(17,3)

说明寿命和gdp是相关的.

python-计算数据的相关性的更多相关文章

Python文章相关性分析---金庸武侠小说分析
百度到<金庸小说全集 14部>全(TXT)作者:金庸下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for li ...
python数据相关性分析（计算相关系数）
#-*- coding: utf-8 -*- #餐饮销量数据相关性分析计算相关系数 from __future__ import print_function import pandas as pd ...
相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
python相关性算法解决方案（rest/数据库/json/下载）
1. 场景描述一直做java,因项目原因,需要封装一些经典的算法到平台上去,就一边学习python,一边网上寻找经典算法代码,今天介绍下经典的相关性算法,算法原理就不介绍了,只从代码层面进行介绍,包 ...
Python文章相关性分析---金庸武侠小说分析-2018.1.16
最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 输出结果: 比较有意思的巧合是黄蓉使出打狗棒,郭靖就用了降龙十八掌,再后测试了名词的解析. 小说集可以百 ...
Python统计分析可视化库seaborn(相关性图，变量分布图，箱线图等等)
Visualization of seaborn seaborn[1]是一个建立在matplot之上,可用于制作丰富和非常具有吸引力统计图形的Python库.Seaborn库旨在将可视化作为探索和理 ...
pandas通过皮尔逊积矩线性相关系数（Pearson's r）计算数据相关性
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...
python相关性分析与p值检验
## 最近两天的成果 ''' ########################################## # # # 不忘初心砥砺前行. # # 418__yj # ########### ...
利用python的matplotlib处理计算数据
#!/usr/bin/python # -*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot as plt import ...
python之数据序列转换并同时计算数据
问题你需要在数据序列上执行聚集函数(比如 sum() , min() , max() ), 但是首先你需要先转换或者过滤数据解决方案一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式 ...

随机推荐

Arduino——My-Clock项目发布时间：2018-12-31
技术:Arduino.光敏传感器.DHT11.DS1302.OLED显示屏概述项目My-Clock是一个环境监测时钟,接入光敏传感器和温湿度传感器监测环境信息,加入DS1302模块用于获取时间 ...
LeetCode——Combination Sum II
Given a collection of candidate numbers (C) and a target number (T), find all unique combinations in ...
C++中public、protected及private使用方法
1.类的一个特征就是封装,public和private作用就是实现这一目的.所以: 用户代码(类外)能够訪问public成员而不能訪问private成员:private成员仅仅能由类成员(类内)和友元 ...
data1是字符串?需要加上引号
07-22 15:55:29.832: E/AndroidRuntime(23914): FATAL EXCEPTION: main 07-22 15:55:29.832: E/AndroidRunt ...
Easyui实用视频教程系列---Tree点击打开tab页面
Easyui实用视频教程系列---Tree点击打开tab页面首先我们要搭建环境 easyui 环境然后把tree 给创建出来在某个位置粘贴下面代码 <ul id="tt ...
[转载]virtualbox安装64bit客户机
原文地址:virtualbox安装64bit客户机作者:kunth 1.虚拟64bit客户机 (1)安装virualbox (2)bios设置 supports virtualization为able ...
Eclipse中10个最有用的快捷键组合(转)
Eclipse中10个最有用的快捷键组合一个Eclipse骨灰级开发者总结了他认为最有用但又不太为人所知的快捷键组合.通过这些组合可以更加容易的浏览源代码,使得整体的开发效率和质量得到提升. ...
神奇的 Block
本文不做Block的基本介绍和底层实现原理,有兴趣的同学直接戳这篇文章(http://www.jianshu.com/p/51d04b7639f1),写得灰常好,本文只在应用层面上带领读者进行思考,并 ...
优化 App 的启动时间
这是一篇 WWDC 2016 Session 406 的学习笔记,从原理到实践讲述了如何优化 App 的启动时间. App 运行理论 main() 执行前发生的事 Mach-O 格式虚拟内存基础 M ...
Oracle中INTERSECT,MINUS，UNION，UNION ALL用法
intersect 就是交集minus 就是差集交集就是两个结果集中都有的元素比如 select uid from tb1 intersect select uid from tb2 那么既存在t ...

python-计算数据的相关性

python-计算数据的相关性的更多相关文章

随机推荐

热门专题