python--Numpy and Pandas 笔记01


　　博客地址：http://www.cnblogs.com/yudanqu/

  1 import numpy as np

 import pandas as pd

 from pandas import Series,DataFrame

 #Series

 s1 = Series([1,2,3], index=['A','B','C'])

 s2 = Series([4,5,6,7], index=['B','C','D','E'])

 s1 + s2

 # 结果：A NaN

 #　　   B 6.0

 # 　　  C 8.0

 # 　　  D NaN

 #　　   E NaN

 #　　   dtype: float64

 # 对应项相加，其他为nan

 #DataFrame

 df1 = DataFrame(np.arange(4).reshape(2,2),index=['A','B'],columns=['BJ','SH'])

 df2 = DataFrame(np.arange(9).reshape(3,3),index=['A','B','C'],columns=['BJ','SH','GZ'])

 df1 + df2

 #结果： BJ GZ SH

 #　　   A 0.0 NaN 2.0

 #　　   B 5.0 NaN 7.0

 #　　   C NaN NaN NaN

 df3 = Datadf3 = DataFrame([[1,2,3],[4,5,np.nan],[7,8,9]],index=['A','B','C'],columns=['c1','c2','c3'])

 '''

 c1 c2 c3

 A 1 2 3.0

 B 4 5 NaN

 C 7 8 9.0

 '''

 df3.sum()

 #结果：c1 12.0

 #　　  c2 15.0

 #　　  c3 12.0

 #　　  dtype: float64

 #这里的nan与实数相运算并不返回nan

 df3.sum(axis=1) #则求得每一行的和，即ABC，由于默认axis=0，所以不写表示求的列

 df3.min() #求最小值，max同理。整体同理与sum，不考虑nan

 df3.describe() #统计内部数据

 # 排序功能

 #注：randn：正态分布

 rand：0到1

 #Series：

 s1 = Series(np.random.randn(10))

 s2 = s1.sort_values() # 根据values排序

 # 默认参数ascending=True，升序为True，倒序可以改参数sacending=False

 s2.sort_index() # 根据index升序排列

 #DataFrame：

 df1 = DataFrame(np.random.randn(40).reshape(8,5),columns=['A','B','C','D','E'])

 df1['A'].sort_values() #仅仅是对着一列排序，若想整体根据这一列进行排序要多df1进行排序

 df1.sort_values('A') #则为全部排序，默认升序

 df1.sort_values('A')[['A','D']] # 根据某列排序并输出所需要的几列

 #重命名

 df1.index = df1.index.map(str) #修改dataframe的index

 df1.rename(index=str.upper,columns=str.lower) #通过map函数改变整个

 df1.rename(index={'A':'a'},columns={'B':'b'}) #通过字典修改某一项

 # map函数的参数可以使自己定义的函数

 #dataframe的merge操作

 pd.merge(df1,df2,on='name',how='inner') # on表示根据哪列的name来作为判断依据，默认为None,how的参数中比如写left，那么就根据左侧的df；爱显示数据，若右边一个没有的则补全为nan，outer是right和left的结合，将所有的都输出

 df1 = DataFrame({'key':['A','B','C'],'data_set_1':[1,2,3]})

 df2 = DataFrame({'key':['X','Y','Z'],'data_set_2':[4,5,6]})

 pd.merge(df1,df2) # 这时的结果返回为空，因为merge是对其中key值相同的进行操作

 # 当相同name的columns（例如此例的key）时，他中的值相同，那么可以进行merge

 #concatenate和combine

 #~~concatenate：

 #1、array

 arr1 = np.arange(9).reshape(3,3)

 arr2 = np.arange(9).reshape(3,3)

 np.concatenate([arr1,arr2]) #通过列表放在一起
　　'''

 output：array([[0, 1, 2],

 [3, 4, 5],

 [6, 7, 8],

 [0, 1, 2],

 [3, 4, 5],

 [6, 7, 8]])

 注：其中concatenate的参数包括axis，可以决定如何连接
　　'''

 #2、Series

 s1 = Series([1,2,3],index=['X','Y','Z'])

 s2 = Series([4,5],index=['A','B'])

 pd.concat([s1,s2]) #同样有axis参数，为0则在下面连接，为1则横向

 #3、dataframe

 df1 = DataFrame(np.random.randn(4,3),columns=['X','Y','Z'])

 df2 = DataFrame(np.random.randn(3,3),columns=['X','Y','A'])

 pd.concat([df1,df2])
　　'''

 Out:

 A X Y Z

 0 NaN -0.060523 0.879124 1.673622

 1 NaN 0.734367 0.708085 -0.133981

 2 NaN 0.461922 -2.186110 -4.473558

 3 NaN 1.553153 -2.256533 -0.381862

 0 1.304371 -0.275638 1.362799 NaN

 1 -0.357986 -0.273505 0.430566 NaN

 2 1.406862 1.453295 -0.681261 NaN
　　'''

 #~~combine：

 #1、Series：

 s1 = Series([2,np.nan,4,np.nan],index=['A','B','C','D'])

 s1 = Series([1,2,3,4],index=['A','B','C','D'])

 s1.combine_first(s2) #把s1中没有的填充上从s2

 #2、DataFrame：

 #和series几乎一样

作者：渔单渠
博客地址：http://www.cnblogs.com/yudanqu/

python--Numpy and Pandas 笔记01的更多相关文章

python numpy和pandas做数据分析时去掉科学记数法显示
1.Numpy import numpy as np np.set_printoptions(suppress=True, threshold=np.nan) suppress=True 取消科学记数 ...
python numpy模块使用笔记（更新）
np.arange(int a) 生成一个一维array,元素个数是a个,元素是0到a-1 注意arange不能直接生成多维array np.arange(int a).reshape(int b,i ...
Python scrapy爬虫学习笔记01
1.scrapy 新建项目 scrapy startproject 项目名称 2.spiders编写(以爬取163北京新闻为例) 此例中用到了scrapy的Itemloader机制,itemloade ...
Python Numpy,Pandas基础笔记
Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarr ...
python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
[转] python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
Python入门之安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了. 首要条件,python版本必 ...
python及numpy，pandas易混淆的点
https://blog.csdn.net/happyhorizion/article/details/77894035 初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可 ...

随机推荐

在Win32程序中嵌入Edge浏览器组件
代码未经测试,只做个记录据说只是改了UA. 在注册表修改这个路径,并且把自己程序添加进去,写一个浏览器控件的版本号,只要高于12000就自动改为Edge. For 64bit application ...
java----八种排序算法
1.直接插入排序经常碰到这样一类排序问题:把新的数据插入到已经排好的数据列中. 将第一个数和第二个数排序,然后构成一个有序序列将第三个数插入进去,构成一个新的有序序列. 对第四个数.第五个数……直 ...
Exception in thread "main" java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to create the schema. If needed, do
继上一篇Hive: Exception in thread "main" java.lang.RuntimeException: Hive metastore database i ...
想起以前写的一个爬虫，然后就用C#WinForm写了一个下载小说的软件，比较简单
本软件本是练习.讨论爬虫技术所用.如果侵犯了您的利益请联系我,我会立即删除! 小工具安装包: 百度网盘链接:https://pan.baidu.com/s/1m_OuEBOEE47kYaXq5fwpI ...
数据库之mysql篇（1）—— 数据库管理系统简介/mysql的安装、配置
说mysql之前,还是先说说数据库. 什么是数据库: 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后 ...
MySql基本使用方法
一,基本概念 1, 常用的两种引擎: (1) InnoDB a,支持ACID,简单地说就是支持事务完整性.一致性: b,支持行锁,以及类似ORACLE的一 ...
Linux 忘记登录密码？破解系统登陆密码
1.重启或者开启系统,在如下界面按e 进入救援系统: 2.在linux16 这一行末尾输入:rd.break,以rd.break 的方法重置密码 3.分别执行以下命令 mount -o remount ...
使用selenium时，使用从系统启动浏览器与通过自动化驱动方式启动浏览器控件ID不一样解决方法
最近遇到一个怪事,通过正常打开浏览器,按照正常的web登录然后点击进入系统流程,将各控件的ID识别成功,然后使用 python3+selenium写好脚本,高高兴兴的用脚本跑时老是提示找不到控件,然后 ...
Zookeeper源码编译为Eclipse工程（win7下Ant编译）
前言 ZooKeeper是雅虎的.用Ant进行软件构建. 千里之行,始于足下.想看源码的第一步,是下载源码并导入某个IDE工具. Ant http://ant.apache.org/ Windows: ...
[Java] SpringMVC工作原理之四：MultipartResolver
MultipartResolver 用于处理文件上传,当收到请求时 DispatcherServlet 的 checkMultipart() 方法会调用 MultipartResolver 的 isM ...

python--Numpy and Pandas 笔记01

python--Numpy and Pandas 笔记01的更多相关文章

随机推荐

热门专题