python--Numpy and Pandas 笔记01


　　博客地址：http://www.cnblogs.com/yudanqu/

  1 import numpy as np

 import pandas as pd

 from pandas import Series,DataFrame

 #Series

 s1 = Series([1,2,3], index=['A','B','C'])

 s2 = Series([4,5,6,7], index=['B','C','D','E'])

 s1 + s2

 # 结果：A NaN

 #　　   B 6.0

 # 　　  C 8.0

 # 　　  D NaN

 #　　   E NaN

 #　　   dtype: float64

 # 对应项相加，其他为nan

 #DataFrame

 df1 = DataFrame(np.arange(4).reshape(2,2),index=['A','B'],columns=['BJ','SH'])

 df2 = DataFrame(np.arange(9).reshape(3,3),index=['A','B','C'],columns=['BJ','SH','GZ'])

 df1 + df2

 #结果： BJ GZ SH

 #　　   A 0.0 NaN 2.0

 #　　   B 5.0 NaN 7.0

 #　　   C NaN NaN NaN

 df3 = Datadf3 = DataFrame([[1,2,3],[4,5,np.nan],[7,8,9]],index=['A','B','C'],columns=['c1','c2','c3'])

 '''

 c1 c2 c3

 A 1 2 3.0

 B 4 5 NaN

 C 7 8 9.0

 '''

 df3.sum()

 #结果：c1 12.0

 #　　  c2 15.0

 #　　  c3 12.0

 #　　  dtype: float64

 #这里的nan与实数相运算并不返回nan

 df3.sum(axis=1) #则求得每一行的和，即ABC，由于默认axis=0，所以不写表示求的列

 df3.min() #求最小值，max同理。整体同理与sum，不考虑nan

 df3.describe() #统计内部数据

 # 排序功能

 #注：randn：正态分布

 rand：0到1

 #Series：

 s1 = Series(np.random.randn(10))

 s2 = s1.sort_values() # 根据values排序

 # 默认参数ascending=True，升序为True，倒序可以改参数sacending=False

 s2.sort_index() # 根据index升序排列

 #DataFrame：

 df1 = DataFrame(np.random.randn(40).reshape(8,5),columns=['A','B','C','D','E'])

 df1['A'].sort_values() #仅仅是对着一列排序，若想整体根据这一列进行排序要多df1进行排序

 df1.sort_values('A') #则为全部排序，默认升序

 df1.sort_values('A')[['A','D']] # 根据某列排序并输出所需要的几列

 #重命名

 df1.index = df1.index.map(str) #修改dataframe的index

 df1.rename(index=str.upper,columns=str.lower) #通过map函数改变整个

 df1.rename(index={'A':'a'},columns={'B':'b'}) #通过字典修改某一项

 # map函数的参数可以使自己定义的函数

 #dataframe的merge操作

 pd.merge(df1,df2,on='name',how='inner') # on表示根据哪列的name来作为判断依据，默认为None,how的参数中比如写left，那么就根据左侧的df；爱显示数据，若右边一个没有的则补全为nan，outer是right和left的结合，将所有的都输出

 df1 = DataFrame({'key':['A','B','C'],'data_set_1':[1,2,3]})

 df2 = DataFrame({'key':['X','Y','Z'],'data_set_2':[4,5,6]})

 pd.merge(df1,df2) # 这时的结果返回为空，因为merge是对其中key值相同的进行操作

 # 当相同name的columns（例如此例的key）时，他中的值相同，那么可以进行merge

 #concatenate和combine

 #~~concatenate：

 #1、array

 arr1 = np.arange(9).reshape(3,3)

 arr2 = np.arange(9).reshape(3,3)

 np.concatenate([arr1,arr2]) #通过列表放在一起
　　'''

 output：array([[0, 1, 2],

 [3, 4, 5],

 [6, 7, 8],

 [0, 1, 2],

 [3, 4, 5],

 [6, 7, 8]])

 注：其中concatenate的参数包括axis，可以决定如何连接
　　'''

 #2、Series

 s1 = Series([1,2,3],index=['X','Y','Z'])

 s2 = Series([4,5],index=['A','B'])

 pd.concat([s1,s2]) #同样有axis参数，为0则在下面连接，为1则横向

 #3、dataframe

 df1 = DataFrame(np.random.randn(4,3),columns=['X','Y','Z'])

 df2 = DataFrame(np.random.randn(3,3),columns=['X','Y','A'])

 pd.concat([df1,df2])
　　'''

 Out:

 A X Y Z

 0 NaN -0.060523 0.879124 1.673622

 1 NaN 0.734367 0.708085 -0.133981

 2 NaN 0.461922 -2.186110 -4.473558

 3 NaN 1.553153 -2.256533 -0.381862

 0 1.304371 -0.275638 1.362799 NaN

 1 -0.357986 -0.273505 0.430566 NaN

 2 1.406862 1.453295 -0.681261 NaN
　　'''

 #~~combine：

 #1、Series：

 s1 = Series([2,np.nan,4,np.nan],index=['A','B','C','D'])

 s1 = Series([1,2,3,4],index=['A','B','C','D'])

 s1.combine_first(s2) #把s1中没有的填充上从s2

 #2、DataFrame：

 #和series几乎一样

作者：渔单渠
博客地址：http://www.cnblogs.com/yudanqu/

python--Numpy and Pandas 笔记01的更多相关文章

python numpy和pandas做数据分析时去掉科学记数法显示
1.Numpy import numpy as np np.set_printoptions(suppress=True, threshold=np.nan) suppress=True 取消科学记数 ...
python numpy模块使用笔记（更新）
np.arange(int a) 生成一个一维array,元素个数是a个,元素是0到a-1 注意arange不能直接生成多维array np.arange(int a).reshape(int b,i ...
Python scrapy爬虫学习笔记01
1.scrapy 新建项目 scrapy startproject 项目名称 2.spiders编写(以爬取163北京新闻为例) 此例中用到了scrapy的Itemloader机制,itemloade ...
Python Numpy,Pandas基础笔记
Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarr ...
python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
[转] python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
Python入门之安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了. 首要条件,python版本必 ...
python及numpy，pandas易混淆的点
https://blog.csdn.net/happyhorizion/article/details/77894035 初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可 ...

随机推荐

Win10更新
Turn: https://m.uczzd.cn/webview/news?app=meizubrw-iflow&aid=11529477703533248224&cid=100&am ...
完全数java
完全数:小于本身的所有因子的和(包括1) public class test01 { public static void main(String[] args) { Scanner scanner= ...
Linux学习历程——Centos 7 ps命令基础
一.ps命令介绍 ps命令是Process Status的缩写,用于查看系统进程状态,ps命令输出值非常多,通常结合管道符使用. 二.实例 1.我们直接输入ps命令,不加任何参数. 可以看到默认输出4 ...
CVE-2017-8464 分析
目录 CVE-2017-8464(stuxnet 3.0) 分析 0xFF 前言 0x00 分析工具 0x01 漏洞复现 1).生成一个DLL用于测试 2).构造一个恶意的lnk二进制文件 3).RU ...
4.4Python数据处理篇之Matplotlib系列(四)---plt.bar()与plt.barh条形图
目录目录前言 (一)竖值条形图 (二)水平条形图 1.使用bar()绘制: 2.使用barh()绘制: (三)复杂的条形图 1.并列条形图: 2.叠加条形图: 3.添加图例于数据标签的条形图: 目 ...
聚类——KFCM的matlab程序
聚类——KFCM的matlab程序作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 在聚类——KFCM文章中已介绍了KFCM-F算法的理论知识,现在用m ...
C语言用π/4=1-1/3+1/5-1/7+... 求π的近似值
//凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ #include<stdio.h> #include<math.h> void m ...
Java数据结构简述
1.数组概念:一个存储元素的线性集合. 数组声明和创建: dataType[] arrayRefVar = new dataType[arraySize]; 二维数组(多维数组)声明和创建: dat ...
Contest Setting 2018 ICPC Pacific Northwest Regional Contest dp
题目:https://vj.69fa.cn/12703be72f729288b4cced17e2501850?v=1552995458 dp这个题目网上说是dp+离散化这个题目要对这些数字先处理然后进 ...
DefaultNamespaceHandlerResolver中handlerMappings如何初始化
前言:最近一直在看Spring源码,今天在调试的时候发现一个小问题:在注册bean时,需要初始化spring默认命名空间处理器,具体在DefaultNamespaceHandlerResolver中实 ...

python--Numpy and Pandas 笔记01

python--Numpy and Pandas 笔记01的更多相关文章

随机推荐

热门专题