numpy和pandas简单使用

import numpy as np
import pandas as pd

一维数据分析

numpy中使用array, pandas中使用series

numpy一维数组array

1.基本使用

a= np.array([2,3,4,5])
a
array([2, 3, 4, 5])
a[0]
2
a[1:3]
array([3, 4])
a.dtype

dtype('int64')

2.向量化计算

a=np.array([1,2,3])

b=np.array([4,5,6])

a + b

array([5, 7, 9])

a * b

array([ 4, 10, 18])

3.统计功能

np.mean(a)

2.0

np.std(a)

0.816496580927726

pandas一维数据结构series

1.基本使用

stocks=pd.Series([54.74,190.0,173.14,1050.3,181.86,1139.49],index=['腾讯','阿里巴巴','苹果', '谷歌', 'Facebook', '亚马逊'])

  • 描述统计信息
stocks.describe()

count       6.000000
mean 464.921667
std 491.284358
min 54.740000
25% 175.320000
50% 185.930000
75% 835.225000
max 1139.490000
dtype: float64
  • 按照位置取值
stocks.iloc[0]

54.74

  • 按照索引取值
stocks.loc['腾讯']

54.74

2.向量化计算

s1 = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([10,20,30,40], index=['a', 'b', 'e', 'f'])
s3 = s1 + s2
s3
a    11.0
b 22.0
c NaN
d NaN
e NaN
f NaN
dtype: float64
  • 相同index名称相加,index不同默认结果为NaN
  • 下面两种去除NaN的方法
s3.dropna()

a    11.0
b 22.0
dtype: float64
s3 = s1.add(s2, fill_value=0)
s3
a    11.0
b 22.0
c 3.0
d 4.0
e 30.0
f 40.0
dtype: float64

二维数据分析

numpy二维数组array

1.基本使用

a = np.array([[1,2,3, 4],
[5,6,7,8],
[9,10,11,12]])
a
array([[ 1,  2,  3,  4],
[ 5, 6, 7, 8],
[ 9, 10, 11, 12]])
a[0,2]

3

  • 取第一行
a[0,:]

array([1, 2, 3, 4])

  • 取第一列
a[:, 0]

array([1, 5, 9])

  • 按行计算均值 axis=1 按行 axis=0 按列
a.mean(axis=1)

array([ 2.5,  6.5, 10.5])

pandas二维数据结构DataFrame

1.基本使用

  • 向DataFrame中传入一个字典
salesDict = {
'购药时间': ['2018-01-01 星期五', '2018-01-02 星期六', '2018-01-06 星期三'],
'社保卡号': ['001616528', '001616528', '0012602828'],
'商品编码': [236701, 236701, 236701],
'商品名称': ['强力VC银翘片', '清热解毒口服液', '感康'],
'销售数量': [6,1,2],
'应收金额': [82.8,28,16.8],
'实收金额': [69, 24.64, 15]
}
saleDf=pd.DataFrame(salesDict)
saleDf

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
购药时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 001616528 236701 强力VC银翘片 6 82.8 69.00
1 2018-01-02 星期六 001616528 236701 清热解毒口服液 1 28.0 24.64
2 2018-01-06 星期三 0012602828 236701 感康 2 16.8 15.00
  • 使用OrderedDict保证数据有序
from collections import OrderedDict

salesOrderDict = OrderedDict(salesDict)
salesDf = pd.DataFrame(salesOrderDict)
salesDf

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
购药时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 001616528 236701 强力VC银翘片 6 82.8 69.00
1 2018-01-02 星期六 001616528 236701 清热解毒口服液 1 28.0 24.64
2 2018-01-06 星期三 0012602828 236701 感康 2 16.8 15.00
  • 统计功能
salesDf.mean()

商品编码    236701.000000
销售数量 3.000000
应收金额 42.533333
实收金额 36.213333
dtype: float64
  • 按照位置读取数据
salesDf.iloc[0,1]

'001616528'

  • 读取第一行数据
salesDf.iloc[0,:]

购药时间    2018-01-01 星期五
社保卡号 001616528
商品编码 236701
商品名称 强力VC银翘片
销售数量 6
应收金额 82.8
实收金额 69
Name: 0, dtype: object
  • 读取第一列数据
salesDf.iloc[:,0]

0    2018-01-01 星期五
1 2018-01-02 星期六
2 2018-01-06 星期三
Name: 购药时间, dtype: object
  • 按照列名称读取数据
  • 读取某一列或某几列数据
salesDf.loc[:,'商品名称']

0    强力VC银翘片
1 清热解毒口服液
2 感康
Name: 商品名称, dtype: object
salesDf.loc[:, ['商品名称', '销售数量']]

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
商品名称 销售数量
0 强力VC银翘片 6
1 清热解毒口服液 1
2 感康 2
  • 读取列数据的简单写法
salesDf['商品名称']

0    强力VC银翘片
1 清热解毒口服液
2 感康
Name: 商品名称, dtype: object

2.筛选查询

  • 构建查询条件
querySet = salesDf.loc[:, '销售数量'] > 1
type(querySet)
pandas.core.series.Series

querySet

0     True
1 False
2 True
Name: 销售数量, dtype: bool
  • 应用查询条件
salesDf.loc[querySet,:]

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
购药时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 001616528 236701 强力VC银翘片 6 82.8 69.0
2 2018-01-06 星期三 0012602828 236701 感康 2 16.8 15.0

3.pandas读取execl

这里依赖于xlrd

fileNameStr = './手机销售情况.xlsx'
xls = pd.ExcelFile(fileNameStr)
salesDf = xls.parse('Sheet1')

  • 读取前5行
salesDf.head()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
商品名称 单价 销量
0 IphoneXsMax 9900 100000
1 IphoneXR 5000 500000
2 小米9 2999 2000000
3 IpadMini5 2999 100000000
  • 查看数据类型
salesDf.loc[:, '单价'].dtype

dtype('int64')

salesDf.dtypes

商品名称    object
单价 int64
销量 int64
dtype: object
  • 查看数据行数列数
salesDf.shape

(4, 3)

  • 每一列的描述统计信息
salesDf.describe()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {
vertical-align: top;
} .dataframe thead th {
text-align: right;
}
单价 销量
count 4.000000 4.000000e+00
mean 5224.500000 2.565000e+07
std 3256.603599 4.957341e+07
min 2999.000000 1.000000e+05
25% 2999.000000 4.000000e+05
50% 3999.500000 1.250000e+06
75% 6225.000000 2.650000e+07
max 9900.000000 1.000000e+08

numpy和pandas简单使用的更多相关文章

  1. python之pandas简单介绍及使用(一)

    python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...

  2. 1.理解Numpy、pandas

    之前一直做得只是采集数据,而没有再做后期对数据的处理分析工作,自己也是有意愿去往这些方向学习的,最近就在慢慢的接触. 首先简单理解一下numpy和pandas:一.NumPy:1.NumPy是高性能计 ...

  3. python及numpy,pandas易混淆的点

    https://blog.csdn.net/happyhorizion/article/details/77894035 初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可 ...

  4. NumPy和Pandas常用库

    NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数 ...

  5. numpy,scipy,pandas 和 matplotlib

    numpy,scipy,pandas 和 matplotlib 本文会介绍numpy,scipy,pandas 和 matplotlib 的安装,环境为Windows10. 一般情况下,如果安装了Py ...

  6. python安装numpy和pandas

    最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...

  7. 如何快速地从mongo中提取数据到numpy以及pandas中去

    mongo数据通常过于庞大,很难一下子放进内存里进行分析,如果直接在python里使用字典来存贮每一个文档,使用list来存储数据的话,将很快是内存沾满.型号拥有numpy和pandas import ...

  8. numpy、pandas

    numpy: 仨属性:ndim-维度个数:shape-维度大小:dtype-数据类型. numpy和pandas各def的axis缺省为0,作用于列,除DataFrame的.sort_index()和 ...

  9. [转] python安装numpy和pandas

    最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...

随机推荐

  1. 格式化输出Json对象

    1.调用方式: alert(JsonUti.convertToString(jsonObj)); //jsonObj为json对象. 2.格式化输出Json对象方法定义: var JsonUti = ...

  2. 远程显示(操作) 服务器 GUI 程序(图形化界面) (基于 X11 Forwarding + Centos + MobaXterm)

    在做 数据分析(数据挖掘 或 机器学习)的时候,我们经常需要绘制一些统计相关的图表,这些统计.绘图的程序常常是跑在服务器上的,可是服务器出于性能和效率的考虑,通常都是没有安装图形化界面的,于是这些统计 ...

  3. 深入 Java Web

    该系列 记录下,深入 学习 Java Web 过程. 1.Tomcat总体结构 2.Tomcat 启动流程 3.ServletContext详解 4.Servlet详解

  4. IntelliJ IDEA中文乱码问题

    转自  https://blog.csdn.net/m0_37893932/article/details/78280663 1 file->settings->appearence里面有 ...

  5. Hbase之JAVA API不能远程访问问题解决

    1.配置Linux的hostname2.配置Linux的hosts,映射ip的hostname的关系3.配置访问windows的hosts 参考文档:http://blog.csdn.net/ty49 ...

  6. 一本通1640C Looooops

    1640:C Looooops 时间限制: 1000 ms         内存限制: 524288 KB [题目描述] 原题来自:CTU Open 2004 对于 C 语言的 for (variab ...

  7. idea导入eclipse中的maven项目

    1.  删除项目当中除src和pom.xml文件之外的文件 2.  打开idea,选择file – new – project from existing sources 3.  选择项目路径,然后n ...

  8. java虚拟机的内存划分

    为了提高运算效率,就对空间进行不同区域的划分,因为每一片区域都有特定的处理数据方式和内存管理方式. 一. 1.jvm的内存划分: 区域名称 作用 寄存器 给cpu使用,和我们开发无关 本地方法栈 jv ...

  9. Square Numbers UVA - 11461(水题)

    #include <iostream> #include <cstdio> #include <sstream> #include <cstring> ...

  10. pom.xml文件中,添加自定义参数Properties

    <properties> <powermock.version>1.6.6</powermock.version> </properties> < ...