数据分析02 /pandas基础

数据分析02 /pandas基础

1. pandas简介

numpy能够帮助我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列），那么pandas就可以帮我们很好的处理除了数值型的其他数据！
pandas中的两个常用的类：Series/DataFrame

2. Series

定义：

Series是一种类似一维数组的对象，由下面两个部分组成：

values：一组数据（ndarray类型）

index：相关的数据索引标签

Series的创建

1.由列表或numpy数组创建

2.由字典创建

代码示例：

import pandas as pd

from pandas import Series,DataFrame

import numpy as np

# 方式一：

s1 = Series(data=[1,2,3,4,5])

# 方式二：

s2 = Series(data=np.random.randint(0,100,size=(4,)))

# 方式三：

dic = {

    'a':1,

    'b':2,

    'c':3

}

# Series的索引可以为字符串

s3 = Series(data=dic)

# Series这个数据结构中存储的数据一定得是一个维度

Series的索引

1.隐式索引：数值型，默认是隐式索引

2.显式所用：自定义（字符串），提高数据的可读性

代码示例：
```
# index指定显式索引

s4 = Series(data=[1,2,3],index=['数学','英语','理综'])
```

Series的索引和切片

1.索引操作

# 隐式索引操作

s4[0]

# 显示索引操作

s4['数学']

s4.数学

2.切片

s4[0:2]

Series的常用属性
- shape：形状；例：s4.shape
- size：大小；例：s4.size
- index：行索引；例：s4.index
- values：列索引；例：s4.values

Series的常用方法

1.head(),tail()

s4.head(2)   # 显式前n条数据

s4.tail(2)   # 显式后n条数据

2.unique()

s = Series(data=[1,1,2,2,3,4,5,6,6,6,6,6,6,7,8])

s.unique()   # 对Series进行去重

3.add() sub() mul() div() /Series的算术运算

s + s 相当于 s.add(s)

算数运算的法则：索引与之匹配的值进行算数运算，否则补空

s1 = Series(data=[1,2,3,4])

s2 = Series(data=[5,6,7])

s1 + s2

# 结果：

0     6.0

1     8.0

2    10.0

3     NaN

dtype: float64

4.isnull(),notnull()/应用：清洗Series中的空值

s1 = Series(data=[1,2,3,4],index=['a','b','c','e'])

s2 = Series(data=[1,2,3,4],index=['a','d','c','f'])

s = s1 + s2

s

# 结果：

a    2.0

b    NaN

c    6.0

d    NaN

e    NaN

f    NaN

dtype: float64

# 清洗结果的空值：boolean可以作为索引取值

s[s.notnull()]

3. DataFrame

DataFrame简介

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values

DataFrame的创建

1.ndarray创建

2.字典创建

示例：

df = DataFrame(data=np.random.randint(0,100,size=(5,6)))

df

dic = {

    'name':['zhangsan','lisi','wangwu'],

    'salary':[10000,15000,10000]

}

df = DataFrame(data=dic,index=['a','b','c'])

df

DataFrame的属性
- df.values：所有的值
- df.shape：形状
- df.index：行索引
- df.columns：列索引

DataFrame索引操作

1.对列进行索引

# 索引取单列

df['name']

# 索引取多列

df[['age','name']]

2.对行进行索引

# 索引取单行

df.loc['a']  # 显示索引操作

df.iloc[0]  # 隐式索引操作

# 索引取多行

df.loc[['a','c']]  # 显示索引操作

df.iloc[[0,2]]  # 隐式索引操作

3.取单个元素

df.loc['b','salary']  # 显示索引操作

df.iloc[1,1]  # 隐式索引操作

4.取多个元素值

df.loc[['b','c'],'salary']  # 显示索引操作

df.iloc[[1,2],1]  # 隐式索引操作

DataFrame的切片操作

1.对行进行切片
```
# 切行

df[0:2]
```
2.对列进行切片
```
# 切列

df.iloc[:,0:2]
```
DataFrame的运算：和Series是一样

元素对应的行列索引保持一致，则元素间可以进行算数运算，否则补空
查看df的数据的数据类型
```
df.dtypes

df.info():信息更全
```

时间数据类型的转换：pd.to_datetime(col)

示例：

dic = {

    'time':['2019-01-09','2011-11-11','2018-09-22'],

    'salary':[1111,2222,3333]

}

df = DataFrame(data=dic)

# 将time列转换成时间序列类型

df['time'] = pd.to_datetime(df['time'])

# 转换前time的类型是：object

# 转换后time的类型是：datetime64[ns]

# 转换后可以进行datetime64[ns]类型相关的操作

将某一列设置为行索引：df.set_index()

示例：

# 将time这一列作为原数据的行索引

df.set_index(df['time'],inplace=True)   # inplace将新表替换原表

# 将之前的time列删掉

df.drop(labels='time',axis=1,inplace=True)  # drop函数中axis的0行，1列

4. 总结：

将查出来的数据写入文件中：df.to_csv('文件路径')
将文件中的数据查出来/pd调用：data = pd.read_csv('文件路径'); 显示前5行：data.head()
将时间转换成时间序列化/pd调用：df['date'] = pd.to_datetime(df['date'])
使用drop时axis=1代表的是列：df.drop(labels='Unnamed: 0',axis=1,inplace=True)，inplace是判断是否用新表替换原表
data.resample('M')：年：A | 月：M |日：D
df.info()：查看数据的详细信息
df.describe()：返回数据统计的描述

数据分析02 /pandas基础的更多相关文章

利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础
在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数 ...
利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
数据分析：pandas 基础
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据 ...
python数据分析02语法基础
在我来看,没有必要为了数据分析而去精通Python.我鼓励你使用IPython shell和Jupyter试验示例代码,并学习不同类型.函数和方法的文档.虽然我已尽力让本书内容循序渐进,但读者偶尔仍会 ...
利用Python进行数据分析(15) pandas基础: 字符串操作
字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join( ...

随机推荐

IAT表
0X0 0 DLL介绍 DLL翻译器为动态链接库,原来不存在DLL的概念只有,库的概念,编译器会把从库中获取的二进制代码插入到应用程序中.在现在windows操作系统使用了数量庞大的库函数(进程,内存 ...
SpringCloud Alibaba (一)：序言
为什么要转用SpringCloud Alibaba? Spring Cloud Netflix项目进入维护模式在2018年底时,Netflix宣布Hystrix进入维护模式.自2016年以来,Rib ...
如何打包发布加密的 Python 源代码
这里介绍一种使用 PyInstaller 和 PyArmor 来发布加密 Python 源代码的方式,能够达到以下目的把所有 Python 源代码打包成为可执行文件,客户不需要 Python 就可以 ...
pip安装mysql-connector
pip install mysql-connector --index-url https://pypi.douban.com/simple
ESP8266服务器模式发送数据和接收数据模板1
功能如下: 1.将客户端发来的数据转发到串口:2.串口数据转发给所有客户端3.可连接4个客户端4.可设置静态IP地址5.指示灯闪烁表示无客户端连接,灯亮代表有客户端连接 /** 功能: 1.将客户端发 ...
@font-face规则指定字体
兼容性写法: @font-face { font-family: '字体名'; src: url('字体名.eot'); /* IE9 兼容模式 */ src: url('字体名.eot?#iefix ...
使用torch实现RNN
(本文对https://blog.csdn.net/out_of_memory_error/article/details/81456501的结果进行了复现.) 在实验室的项目遇到了困难,弄不明白LS ...
关于时间格式 GMT,UTC,CST,ISO
GMT: 格林尼治所在地的标准时间 UTC: 协调世界时,又称世界统一时间.世界标准时间.国际协调时间.由于英文(CUT)和法文(TUC)的缩写不同,作为妥协,简称UTC. 协调世界时是以原子时秒长为 ...
jsc和luac文件 xxtea 解密.
# -*- coding: utf-8 -*- import xxtea import os src = "./assets/src" dst = "./assets/s ...
jwt 工具类
public class TokenUtils { private Logger logger = LoggerFactory.getLogger(this.getClass()); /** * 签名 ...

数据分析02 /pandas基础

数据分析02 /pandas基础

1. pandas简介

2. Series

3. DataFrame

4. 总结：

数据分析02 /pandas基础的更多相关文章

随机推荐

热门专题