numpy&pandas笔记
1.基础属性:
array = np.array([[1,2,3],[2,3,4]]) #列表转化为矩阵
print('number of dim:',array.ndim) # 维度
# number of dim: 2 print('shape :',array.shape) # 行数和列数
# shape : (2, 3) print('size:',array.size) # 元素个数
# size: 6
创建array:注意其形式为([,,,]) ,若为矩阵其形式为([[,,,],[,,,]])
a = np.array([2,23,4]) # list 1d
a = np.array([2,23,4],dtype=np.float) #指定数据类型
a = np.zeros((3,4)) # 数据全为0,3行4列
a = np.arange(10,20,2) # 10-19 的数据,2步长,常用创建区间数组
a = np.arange(12).reshape((3,4)) # 3行4列,0到11 #改变形状
2.基础计算:
在Numpy中,想要求出矩阵中各个元素的乘方需要依赖双星符号 **,以二次方举例,即:
c = a**2
矩阵乘法:
c = a.dot(b)
对矩阵中的元素操作:
np.sum(a)
np.min(a)
np.max(a)
其中的 argmin() 和 argmax() 两个函数分别对应着求矩阵中最小元素和最大元素的索引
print(np.mean(A)) 均值
A.T即为转置矩阵
A = np.arange(3,15).reshape((3,4)) #将一个一维的数据转换为矩阵
A.flatten() #将一个多维平铺成一维数组
for item in A.flat:
print(item) #flat为一个迭代器对象
3.numpy合并与分割:
np.vstack((A,B))上下合并
np.hstack((A,B))左右合并
把一些序列并不表示矩阵的转换为矩阵:
print(A[np.newaxis,:])
# [[1 1 1]] print(A[np.newaxis,:].shape)
# (1,3) print(A[:,np.newaxis].shape)
# (3,1)
对于多个序列的合并采用另外一个函数:
C = np.concatenate((A,B,B,A),axis=0) print(C)
"""
array([[1],
[1],
[1],
[2],
[2],
[2],
[2],
[2],
[2],
[1],
[1],
[1]])
""" D = np.concatenate((A,B,B,A),axis=1) print(D)
"""
array([[1, 2, 2, 1],
[1, 2, 2, 1],
[1, 2, 2, 1]])
"""
axis参数控制单列(0)或者单行(1),0是竖向,1是横向
vertical垂直的
numpy的分割具体使用参考莫烦python教程:
https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/2-7-np-split/
添加:
在数据归一化的时候使用Numpy对数据的形状进行调整。
把一维的列表或者数组调整成多维一个值的矩阵,先使用np.array转换成numpy数组,再使用shuzu.reshape(94,1)
pandas
1.Series是一个带索引的序列
2.DataFrame是一个表格型的数据结构,它包含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。
DataFrame既有行索引也有列索引, 它可以被看做由Series组成的大字典。取某一列元素可以直接用df[列名],返回的值是一个Series。
dates = pd.date_range('',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df)
"""
a b c d
2016-01-01 -0.253065 -2.071051 -0.640515 0.613663
2016-01-02 -1.147178 1.532470 0.989255 -0.499761
"""
print(df2.columns) #每种数据的名称
print(df2.sort_values(by='B')) #对数值进行排序
3.通过标签来筛选数据
print(df.loc[''])
"""
A 4
B 5
C 6
D 7
Name: 2013-01-02 00:00:00, dtype: int64
""" print(df.loc[:,['A','B']])
"""
A B
2013-01-01 0 1
2013-01-02 4 5
2013-01-03 8 9
2013-01-04 12 13
2013-01-05 16 17
2013-01-06 20 21
""" print(df.loc['',['A','B']])
"""
A 4
B 5
Name: 2013-01-02 00:00:00, dtype: int64
"""
使用标签来选择数据 loc,选择几列或者几行
使用ix来混合列组合
print(df.ix[:3,['A','C']])
"""
A C
2013-01-01 0 2
2013-01-02 4 6
2013-01-03 8 10
"""
print(df[df.A>8]) # 还可以使用判断条件来进行筛选。
4.修改数据
我们可以利用索引或者标签确定需要修改值的位置
根据条件设置:df.B[df.A>4] = 0
添加数据:
df['E'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130101',periods=6)) #长度必须对齐
5.数据清理
删除值为nan的数据
df.dropna(
axis=0, # 0: 对行进行操作; 1: 对列进行操作
how='any' # 'any': 只要存在 NaN 就 drop 掉; 'all': 必须全部是 NaN 才 drop
)
如果是将 NaN 的值用其他值代替, 比如代替成 0:
df.fillna(value=0)
判断是否有缺失数据 NaN, 为 True 表示缺失数据:
df.isnull()
"""
A B C D
2013-01-01 False True False False
2013-01-02 False False True False
检测数据中是否有缺失值:
np.any(df.isnull()) == True
# True
6.pandas读入与保存,两种简单例子如下
read读入 data = pd.read_csv('student.csv'),读入进来就是dataframe格式,自动添加行号
to 保存 data.to_pickle('student.pickle')
7.pandas的合并
concat合并方式:
0是纵向,1是横向
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True) 重置index
append合并方式:只有纵向合并
res = df1.append(df2, ignore_index=True)
res = df1.append([df2, df3], ignore_index=True) #合并多个,且都是忽略索引值
join定义列名的合并方式:具体见代码
#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4]) #纵向"外"合并df1与df2
res = pd.concat([df1, df2], axis=0, join='outer') print(res)
# a b c d e
# 1 0.0 0.0 0.0 0.0 NaN
# 2 0.0 0.0 0.0 0.0 NaN
# 3 0.0 0.0 0.0 0.0 NaN
# 2 NaN 1.0 1.0 1.0 1.0
# 3 NaN 1.0 1.0 1.0 1.0
# 4 NaN 1.0 1.0 1.0 1.0 ########下面这个只有相同列名的保存,其他的抛弃
res = pd.concat([df1, df2], axis=0, join='inner') #打印结果
print(res)
# b c d
# 1 0.0 0.0 0.0
# 2 0.0 0.0 0.0
# 3 0.0 0.0 0.0
# 2 1.0 1.0 1.0
# 3 1.0 1.0 1.0
# 4 1.0 1.0 1.0
8,pandas画图函数
plt.plot()折线图
plt.scatter()散点图
具体形式实际应用查询,不需详细记忆。
numpy&pandas笔记的更多相关文章
- Numpy&Pandas
Numpy & Pandas 简介 此篇笔记参考来源为<莫烦Python> 运算速度快:numpy 和 pandas 都是采用 C 语言编写, pandas 又是基于 numpy, ...
- Ipython自动导入Numpy,pandas等模块
一.引言 最近在学习numpy,书上要求安装一个Ipythpn,可以自动导入Numpy,pandas等数据分析的模块,可是当我安装后,并不能自动导入numpy模块,还需要自己import.我就去查了一 ...
- NumPy学习笔记 三 股票价格
NumPy学习笔记 三 股票价格 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.&l ...
- NumPy学习笔记 二
NumPy学习笔记 二 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.<数学分 ...
- NumPy学习笔记 一
NumPy学习笔记 一 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.<数学分 ...
- python 数据分析工具之 numpy pandas matplotlib
作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库 为了 ...
- numpy 学习笔记
numpy 学习笔记 导入 numpy 包 import numpy as np 声明 ndarray 的几种方法 方法一,从list中创建 l = [[1,2,3], [4,5,6], [7,8,9 ...
- 有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
- 第一章:AI人工智能 の 数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn
本课主题 数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...
随机推荐
- jdbc --- javabean
第一部分: javaBean 类 要和数据库表的字段一一对应 package com.ljs.bean; public class UserBean { private int id; privat ...
- nowcoder 211B - 列队 - [(伪·良心贪心)真·毒瘤暴力]
题目链接:https://www.nowcoder.com/acm/contest/211/B 题目描述 炎热的早上,gal男神们被迫再操场上列队,gal男神们本来想排列成x∗x的正方形,可是因为操场 ...
- CH 1402 - 后缀数组 - [字符串hash]
题目链接:传送门 描述 后缀数组 (SA) 是一种重要的数据结构,通常使用倍增或者DC3算法实现,这超出了我们的讨论范围. 在本题中,我们希望使用快排.Hash与二分实现一个简单的 $O(n \log ...
- 10.11JAVA作业
[实验任务一]:素数输出 1. 实验要求: (1)编写判断该数是否为素数的方法,并在主方法中对其进行调用. (2)注意编程规范:程序开头部分的目的,作者以及日期:必要的空格与缩进,适当的注释等: (3 ...
- webpack dev server 配置 启动项目报错Error: listen EADDRINUSE
Error: listen EADDRINUSE 0.0.0.0:5601 它的意思是,端口5601被其他进程占用. 切换端口即可解决问题
- vue $set的使用
在我们使用vue进行开发的过程中,可能会遇到一种情况:当生成vue实例后,当再次给数据赋值时,有时候并不会自动更新到视图上去: 当我们去看vue文档的时候,会发现有这么一句话:如果在实例创建之后添加新 ...
- 转:Spring与Mybatis整合的MapperScannerConfigurer处理过程源码分析
原文地址:Spring与Mybatis整合的MapperScannerConfigurer处理过程源码分析 前言 本文将分析mybatis与spring整合的MapperScannerConfigur ...
- 洛谷P2329 栅栏 [SCOI2005] 搜索
正解:搜索 解题报告: 先放下传送门! 首先说下爆搜趴,就直接枚每个需求是否被满足以及如果满足切哪个板子,随便加个最优性剪枝,似乎是有80pts 然后思考优化 首先显然尽量满足需求比较小的,显然如果能 ...
- mimkatz 用法
mimikatz用法 privilege::debug 进入debug模式 sekurlsa::logonPasswords 查看所有用户密码 sekurlsa::wdigest 读取当前登录用 ...
- jquery实现简单的弹出框
弹出框本身是一个div,默认是隐藏不展示的,在需要弹框的时候使其显示,并浮在当前页面之上 弹框样式: .tanchuang { width: 100%; height: 100%; display: ...