numpy&pandas笔记

1.基础属性：

 array = np.array([[1,2,3],[2,3,4]])  #列表转化为矩阵

 print('number of dim:',array.ndim)  # 维度

 # number of dim: 2

 print('shape :',array.shape)    # 行数和列数

 # shape : (2, 3)

 print('size:',array.size)   # 元素个数

 # size: 6

创建array:注意其形式为([,,,]) ,若为矩阵其形式为([[,,,],[,,,]])

a = np.array([2,23,4]) # list 1d

a = np.array([2,23,4],dtype=np.float) #指定数据类型

a = np.zeros((3,4)) # 数据全为0，3行4列

a = np.arange(10,20,2) # 10-19 的数据，2步长，常用创建区间数组

a = np.arange(12).reshape((3,4)) # 3行4列，0到11 #改变形状

2.基础计算：

在Numpy中，想要求出矩阵中各个元素的乘方需要依赖双星符号 **，以二次方举例，即：

c = a**2

矩阵乘法：

c = a.dot(b)

对矩阵中的元素操作：
np.sum(a)
np.min(a)
np.max(a)

其中的 argmin() 和 argmax() 两个函数分别对应着求矩阵中最小元素和最大元素的索引

print(np.mean(A)) 均值

A.T即为转置矩阵

A = np.arange(3,15).reshape((3,4)) #将一个一维的数据转换为矩阵

A.flatten() #将一个多维平铺成一维数组

for item in A.flat:

　　print(item) #flat为一个迭代器对象

3.numpy合并与分割：

np.vstack((A,B))上下合并

np.hstack((A,B))左右合并

把一些序列并不表示矩阵的转换为矩阵：

 print(A[np.newaxis,:])

 # [[1 1 1]]

 print(A[np.newaxis,:].shape)

 # (1,3)

 print(A[:,np.newaxis].shape)

 # (3,1)

对于多个序列的合并采用另外一个函数：

 C = np.concatenate((A,B,B,A),axis=0)

 print(C)

 """

 array([[1],

        [1],

        [1],

        [2],

        [2],

        [2],

        [2],

        [2],

        [2],

        [1],

        [1],

        [1]])

 """

 D = np.concatenate((A,B,B,A),axis=1)

 print(D)

 """

 array([[1, 2, 2, 1],

        [1, 2, 2, 1],

        [1, 2, 2, 1]])

 """

axis参数控制单列(0)或者单行(1)，0是竖向，1是横向

vertical垂直的

numpy的分割具体使用参考莫烦python教程：

https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/2-7-np-split/

添加：

在数据归一化的时候使用Numpy对数据的形状进行调整。

把一维的列表或者数组调整成多维一个值的矩阵，先使用np.array转换成numpy数组，再使用shuzu.reshape(94,1)

pandas

1.Series是一个带索引的序列

2.DataFrame是一个表格型的数据结构，它包含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。

DataFrame既有行索引也有列索引，它可以被看做由Series组成的大字典。取某一列元素可以直接用df[列名]，返回的值是一个Series。

 dates = pd.date_range('',periods=6)

 df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

 print(df)

 """

                    a         b         c         d

 2016-01-01 -0.253065 -2.071051 -0.640515  0.613663

 2016-01-02 -1.147178  1.532470  0.989255 -0.499761

 """

print(df2.columns) #每种数据的名称

print(df2.sort_values(by='B')) #对数值进行排序

3.通过标签来筛选数据

 print(df.loc[''])

 """

 A    4

 B    5

 C    6

 D    7

 Name: 2013-01-02 00:00:00, dtype: int64

 """

 print(df.loc[:,['A','B']])

 """

              A   B

 2013-01-01   0   1

 2013-01-02   4   5

 2013-01-03   8   9

 2013-01-04  12  13

 2013-01-05  16  17

 2013-01-06  20  21

 """

 print(df.loc['',['A','B']])

 """

 A    4

 B    5

 Name: 2013-01-02 00:00:00, dtype: int64

 """

使用标签来选择数据 loc，选择几列或者几行

使用ix来混合列组合

 print(df.ix[:3,['A','C']])

 """

             A   C

 2013-01-01  0   2

 2013-01-02  4   6

 2013-01-03  8  10

 """

print(df[df.A>8]) 　　# 还可以使用判断条件来进行筛选。

4.修改数据

我们可以利用索引或者标签确定需要修改值的位置

根据条件设置：df.B[df.A>4] = 0

添加数据：

df['E'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130101',periods=6)) #长度必须对齐

5.数据清理

删除值为nan的数据

 df.dropna(

     axis=0,     # 0: 对行进行操作; 1: 对列进行操作

     how='any'   # 'any': 只要存在 NaN 就 drop 掉; 'all': 必须全部是 NaN 才 drop

     )

如果是将 NaN 的值用其他值代替, 比如代替成 0:

df.fillna(value=0)

判断是否有缺失数据 NaN, 为 True 表示缺失数据:

 df.isnull()

 """

                 A      B      C      D

 2013-01-01  False   True  False  False

 2013-01-02  False  False   True  False

检测数据中是否有缺失值：

np.any(df.isnull()) == True
# True

6.pandas读入与保存，两种简单例子如下

read读入　　data = pd.read_csv('student.csv')，读入进来就是dataframe格式，自动添加行号

to 保存　　　　　data.to_pickle('student.pickle')

7.pandas的合并

concat合并方式：

0是纵向，1是横向

res = pd.concat([df1, df2, df3], axis=0, ignore_index=True) 重置index

append合并方式：只有纵向合并

res = df1.append(df2, ignore_index=True)

res = df1.append([df2, df3], ignore_index=True) #合并多个，且都是忽略索引值

join定义列名的合并方式：具体见代码

 #定义资料集

 df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])

 df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])

 #纵向"外"合并df1与df2

 res = pd.concat([df1, df2], axis=0, join='outer')

 print(res)

 #     a    b    c    d    e

 # 1  0.0  0.0  0.0  0.0  NaN

 # 2  0.0  0.0  0.0  0.0  NaN

 # 3  0.0  0.0  0.0  0.0  NaN

 # 2  NaN  1.0  1.0  1.0  1.0

 # 3  NaN  1.0  1.0  1.0  1.0

 # 4  NaN  1.0  1.0  1.0  1.0

 ########下面这个只有相同列名的保存，其他的抛弃

 res = pd.concat([df1, df2], axis=0, join='inner')

 #打印结果

 print(res)

 #     b    c    d

 # 1  0.0  0.0  0.0

 # 2  0.0  0.0  0.0

 # 3  0.0  0.0  0.0

 # 2  1.0  1.0  1.0

 # 3  1.0  1.0  1.0

 # 4  1.0  1.0  1.0

8，pandas画图函数

plt.plot()折线图

plt.scatter()散点图

具体形式实际应用查询，不需详细记忆。

numpy&pandas笔记的更多相关文章

Numpy&Pandas
Numpy & Pandas 简介此篇笔记参考来源为<莫烦Python> 运算速度快:numpy 和 pandas 都是采用 C 语言编写, pandas 又是基于 numpy, ...
Ipython自动导入Numpy,pandas等模块
一.引言最近在学习numpy,书上要求安装一个Ipythpn,可以自动导入Numpy,pandas等数据分析的模块,可是当我安装后,并不能自动导入numpy模块,还需要自己import.我就去查了一 ...
NumPy学习笔记三股票价格
NumPy学习笔记三股票价格 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.&l ...
NumPy学习笔记二
NumPy学习笔记二 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.<数学分 ...
NumPy学习笔记一
NumPy学习笔记一 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.<数学分 ...
python 数据分析工具之 numpy pandas matplotlib
作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库为了 ...
numpy 学习笔记
numpy 学习笔记导入 numpy 包 import numpy as np 声明 ndarray 的几种方法方法一,从list中创建 l = [[1,2,3], [4,5,6], [7,8,9 ...
有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
第一章：AI人工智能の数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn
本课主题数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...

随机推荐

运行gedit报No protocol specified
No protocol specifiedxhost: unable to open display ":0" 这是因为在Xserver默认情况下,不允许Linux非当前登录用户( ...
TensorRT优化过程中的dropout问题
使用tensorRT之前,你一定要注意你的网络结构是否能够得到trt的支持,无论是CNN还是RNN都会有trt的操作. 例如:tf.nn.dropout(features, keep_prob),tr ...
winform进度条
参考资料: http://www.cnblogs.com/zzy0471/archive/2010/12/12/1903602.html http://www.cnblogs.com/haogj/ar ...
Ubuntu启动时a start job is running for dev-disk-by延时解决
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:ht ...
wfp（Application的运用）
1.Application中封装了wpf的一些常用的功能,如检查未经处理的异常,处理命令行参数等. 2.如何启动wpf程序: app.xaml可用于启动wpf的窗体.也可以不用这用方式.直接创建一个a ...
[hyperscan] hyperscan 1到1.5 --!!
[hyperscan][pkg-config] hyperscan 从0到1路线图接续前文,继续深入理解: 概述: 1. 自动机理论,是hyperscan的理论基础. https://zh.wik ...
linux查内存操作：cat /proc/meminfo
https://www.cnblogs.com/zhuiluoyu/p/6154898.html cat /proc/meminfo
图->连通性->无向图的连通分量和生成树
文字描述对无向图进行遍历时,对于连通图,仅需从图中任一顶点出发,进行深度优先搜索或广度优先搜索,便可访问到图中所有顶点.但对非连通图,则需从多个顶点出发搜索,每一次从一个新的起始点出发进行搜索过程得 ...
Orchard Core 中数据库使用postgresql-10
在配置好Startup.cs后,运行程序: 首先需要设置一些基本信息.这里我试着配置如下,数据库使用postgresql,连接字符串像这样: Host=192.168.0.111;UserName=u ...
域PC脱域
SID是什么意思SID 只是安全标识符的缩写而已.SID 的全称是“安全标识符(Security Identify)”,是为域或本地计算机中创建的每个帐户分配的唯一 ID 字符串(例如,S-1-5-2 ...

numpy&pandas笔记

numpy&pandas笔记的更多相关文章

随机推荐

热门专题