博客地址：https://www.cnblogs.com/zylyehuo/

开发环境

anaconda
- 集成环境：集成好了数据分析和机器学习中所需要的全部环境
- 安装目录不可以有中文和特殊符号
jupyter
- anaconda提供的一个基于浏览器的可视化开发工具

import numpy as np

import pandas as pd

from pandas import DataFrame

替换操作

替换操作可以同步作用于Series和DataFrame中
单值替换
- 普通替换：替换所有符合要求的元素:to_replace=15,value='e'
- 按列指定单值替换： to_replace={列标签：替换值} value='value'
多值替换
- 列表替换: to_replace=[] value=[]
- 字典替换（推荐） to_replace=

df = DataFrame(data=np.random.randint(0,100,size=(5,6)))

df

df.replace(to_replace=2,value='Two')

df.replace(to_replace={1:'one'})

# 将指定列的元素进行替换to_replase={列索引：被替换的值}

df.replace(to_replace={4:5},value='five')

映射操作

概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不同的表现形式）
创建一个df，两列分别是姓名和薪资，然后给其名字起对应的英文名

dic = {

    'name':['张三','李四','张三'],

    'salary':[15000,20000,15000]

}

df = DataFrame(data=dic)

df

# 映射关系表

# map是Series的方法，只能被Series调用

dic = {

    '张三':'tom',

    '李四':'jack'

}

df['e_name'] = df['name'].map(dic)

df

运算工具

超过3000部分的钱缴纳50%的税，计算每个人的税后薪资

# 该函数是我们指定的一个运算法则

def after_sal(s):#计算s对应的税后薪资

    return s - (s-3000)*0.5

df['after_sal'] = df['salary'].map(after_sal)#可以将df['salary']这个Series中每一个元素（薪资）作为参数传递给s

df

排序实现的随机抽样

take()
np.random.permutation()

df = DataFrame(data=np.random.randint(0,100,size=(100,3)),columns=['A','B','C'])

df

# 生成乱序的随机序列

np.random.permutation(10)

array([8, 9, 6, 2, 5, 3, 1, 0, 7, 4])

# 将原始数据打乱

df.take([2,0,1],axis=1)

df.take(np.random.permutation(3),axis=1)

df.take(np.random.permutation(3),axis=1).take(np.random.permutation(100),axis=0)[0:50]

df.take(np.random.permutation(3),axis=1).take(np.random.permutation(100),axis=0)[0:50].head()

数据的分类处理

数据分类处理的核心：
- groupby()函数
- groups属性查看分组情况

df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],

                'price':[4,3,3,2.5,4,2],

               'color':['red','yellow','yellow','green','green','green'],

               'weight':[12,20,50,30,20,44]})

df

想要对水果的种类进行分析

df.groupby(by='item')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000290D4BAA910>

查看详细的分组情况

df.groupby(by='item').groups

{'Apple': [0, 5], 'Banana': [1, 3], 'Orange': [2, 4]}

分组聚合

计算出每一种水果的平均价格

df.groupby(by='item')['price'].mean()

item

Apple     3.00

Banana    2.75

Orange    3.50

Name: price, dtype: float64

计算每一种颜色对应水果的平均重量

df.groupby(by='color')['weight'].mean()

color

green     31.333333

red       12.000000

yellow    35.000000

Name: weight, dtype: float64

dic = df.groupby(by='color')['weight'].mean().to_dict()

dic

{'green': 31.333333333333332, 'red': 12.0, 'yellow': 35.0}

将计算出的平均重量汇总到源数据

df['mean_w'] = df['color'].map(dic)

df

高级数据聚合

使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算
df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
transform和apply都会进行运算，在transform或者apply中传入函数即可
transform和apply也可以传入一个lambda表达式

def my_mean(s):

    m_sum = 0

    for i in s:

        m_sum += i

    return m_sum / len(s)

df.groupby(by='item')['price'].transform(my_mean)

0    3.00

1    2.75

2    3.50

3    2.75

4    3.50

5    3.00

Name: price, dtype: float64

df.groupby(by='item')['price'].apply(my_mean)

item

Apple     3.00

Banana    2.75

Orange    3.50

Name: price, dtype: float64

数据加载

读取type-.txt文件数据

df = pd.read_csv('./data/type-.txt')

df

df.shape

(2, 1)

将文件中每一个词作为元素存放在DataFrame中

pd.read_csv('./data/type-.txt',header=None,sep='-')

读取数据库中的数据

连接数据库，获取连接对象

import sqlite3 as sqlite3

conn = sqlite3.connect('./data/weather_2012.sqlite')

读取库表中的数据值

sql_df=pd.read_sql('select * from weather_2012',conn)

sql_df

将一个df中的数据值写入存储到db

df.to_sql('sql_data456',conn)

透视表

透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表，也体会到它的强大功能，而在pandas中它被称作pivot_table。
透视表的优点：
- 灵活性高，可以随意定制你的分析计算要求
- 脉络清晰易于理解数据
- 操作性强，报表神器

import pandas as pd

import numpy as np

df = pd.read_csv('./data/透视表-篮球赛.csv',encoding='utf8')

df

pivot_table有四个最重要的参数index、values、columns、aggfunc

index参数：分类汇总的分类条件

每个pivot_table必须拥有一个index。如果想查看哈登对阵每个队伍的得分则需要对每一个队进行分类并计算其各类得分的平均值：
想看看哈登对阵同一对手在不同主客场下的数据，分类条件为对手和主客场

df.pivot_table(index=['对手','主客场'])

values参数：需要对计算的数据进行筛选

如果我们只需要哈登在主客场和不同胜负情况下的得分、篮板与助攻三项数据

df.pivot_table(index=['主客场','胜负'],values=['得分','篮板','助攻'])

Aggfunc参数：设置我们对数据聚合时进行的函数操作

当我们未设置aggfunc时，它默认aggfunc='mean'计算均值。
还想获得james harden在主客场和不同胜负情况下的总得分、总篮板、总助攻时

df.pivot_table(index=['主客场','胜负'],values=['得分','篮板','助攻'],aggfunc='sum')

Columns:可以设置列层次字段

对values字段进行分类

# 获取所有队主客场的总得分

df.pivot_table(index='主客场',values='得分',aggfunc='sum')

# 获取每个队主客场的总得分（在总得分的基础上又进行了对手的分类）

df.pivot_table(index='主客场',values='得分',columns='对手',aggfunc='sum',fill_value=0)

交叉表

是一种用于计算分组的特殊透视图,对数据进行汇总
pd.crosstab(index,colums)
- index:分组数据，交叉表的行索引
- columns:交叉表的列索引

import pandas as pd

from pandas import DataFrame

df = DataFrame({'sex':['man','man','women','women','man','women','man','women','women'],

               'age':[15,23,25,17,35,57,24,31,22],

               'smoke':[True,False,False,True,True,False,False,True,False],

               'height':[168,179,181,166,173,178,188,190,160]})

df

求出各个性别抽烟的人数

pd.crosstab(df.smoke,df.sex)

求出各个年龄段抽烟人情况

pd.crosstab(df.age,df.smoke)

pandas（进阶操作）-- 处理非数值型数据 -- 数据分析三剑客(核心)的更多相关文章

pandas 基础操作更新
创建一个Series,同时让pandas自动生成索引列创建一个DataFrame数据框查看数据数据的简单统计数据的排序选择数据(类似于数据库中sql语句) 另外可以使用标签来选择通过位置获 ...
Django之Models进阶操作(字段属性）
字段属性详细介绍一.字段 AutoField(Field) - int自增列,必须填入参数 primary_key=True BigAutoField(AutoField) - bigint自增列, ...
[原创]Scala学习：数组的基本操作，数组进阶操作，多维数组
1.Scala中提供了一种数据结构-数组,其中存储相同类型的元素的固定大小的连续集合.数组用于存储数据的集合,但它往往是更加有用认为数组作为相同类型的变量的集合 2 声明数组变量: 要使用的程序的数组 ...
Django 之models进阶操作
到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构和字段使用 MySQLdb 来连接数据库,并编写数据访问层代码业务逻辑层去调用数据访问层执行数据库操作 ...
python数据分析三剑客之: pandas操作
pandas的操作 pandas的拼接操作 # pandas的拼接操作级联 pd.concat , pd.append 合并 pd.merge , pd.join 一丶pd.concat()级联 # ...
web框架-（七）Django补充---models进阶操作及modelform操作
通过之前的课程我们可以对于Django的models进行简单的操作,今天了解下进阶操作和modelform: 1. Models进阶操作 1.1 字段操作 AutoField(Field) - int ...
js非数值的比较
/** * 非数值的比较: * 1.对于非数值的比较时,会将其转换成数字然后再比较 * 2.如果符号两端是字符串的值进行比较时,不会将其转换为数字进行比较,而是 * 分别比较字符串中的字符的 unic ...
用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
数据分析06 /pandas高级操作相关案例：人口案例分析、2012美国大选献金项目数据分析
数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析目录数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析 1. ...
pandas神器操作excel表格大全（数据分析数据预处理）
使用pandas库操作excel,csv表格操作大全关注公众号"轻松学编程"了解更多,文末有公众号二维码,可以扫码关注哦. 前言准备三份csv表格做演示: 成绩表.csv su ...

随机推荐

园子的商业化努力-行行AI人才培养「常青藤计划」
各位园子的小伙伴: 感谢大家长期对园子的支持,AI大模型出现之后,各行各业都在积极思考如何应对,如何把业务场景和AI结合.在这个过程中,AI人才缺乏是最核心的问题. 基于此,园子打算在AI人才培养方面 ...
gitlab docker升级报错
背景使用docker部署gitlab(9.5.4)后,发现合并代码有问题日志: 看gitlab官网此问题已修复,由于上传了一批代码,又懒得重建,决定对gitlab升级 docker启动命令: do ...
用AI技术实现自动化的社交媒体广告投放，提高广告效果和收益
目录 1. 引言 2. 技术原理及概念 2.1 基本概念解释随着社交媒体的普及,广告投放已经成为了广告行业的重要一环.在过去的几年中,社交媒体广告投放的效果和收益都得到了显著提高,但同时也存在着一些 ...
免杀系列之去除Defender令牌权限
本文展示了Windows存在的一个小bug,该问题允许攻击者绕过保护反恶意软件(AV/EDR)免受各种形式攻击的Windows安全机制(Windows Protected Process Light) ...
Winform 巨好看的控件库推荐：MaterialSkin.2
MaterialSkin.2 控件包是在 MaterialSkin 及基础上二次开发而来的,在原控件基础上修复了一些Bug,丰富了主题以及动画效果,效果非常好. MaterialSkin.2 现在处于 ...
asp登录认证，记录最后一次登录时间，写入数据库代码
最近开发了一个船员招聘网的程序,但是由于部分功能需要配合ASP代码才能使用,所以就发现以前写的这个asp登录认证代码,今天就将他公布一下. <!--#include file="con ...
clickhouse使用入门
转载请注明出处(-￣▽￣)-严禁用于商业目的的转载- 导语:同学,你也不想你根本不懂ClickHouse,却赶鸭子上架使用的事情被其他人知道吧? 写在前面:本文旨在让原先有一定SQL基础的人快速简单了 ...
实时阴影技术（Real-time Shadows）
目录 Shadow Mapping 基本实现 Shadow Bias Peter Panning 问题 & 简单 Trick Slope Scale Based Depth Bias Casc ...
盘古大模型加持，华为云开天aPaaS加速使能千行百业应用创新
摘要:开天aPaaS,让优秀快速复制,支撑开发者及伙伴上好云.用好云. 本文分享自华为云社区<盘古大模型加持,华为云开天aPaaS加速使能千行百业应用创新>,作者:开天aPaaS小助手. ...
Tomcat改jar
Tomcat改jar 插件修改  <!-- <groupId>org.apache.maven.plugins</gro ...

pandas（进阶操作）-- 处理非数值型数据 -- 数据分析三剑客(核心)

开发环境

替换操作

映射操作

运算工具

排序实现的随机抽样

数据的分类处理

想要对水果的种类进行分析

查看详细的分组情况

分组聚合

计算出每一种水果的平均价格

计算每一种颜色对应水果的平均重量

将计算出的平均重量汇总到源数据

高级数据聚合

数据加载

将文件中每一个词作为元素存放在DataFrame中

读取数据库中的数据

连接数据库，获取连接对象

读取库表中的数据值

将一个df中的数据值写入存储到db

透视表

pivot_table有四个最重要的参数index、values、columns、aggfunc

index参数：分类汇总的分类条件

values参数：需要对计算的数据进行筛选

Aggfunc参数：设置我们对数据聚合时进行的函数操作

Columns:可以设置列层次字段

交叉表

求出各个性别抽烟的人数

求出各个年龄段抽烟人情况

pandas（进阶操作）-- 处理非数值型数据 -- 数据分析三剑客(核心)的更多相关文章

随机推荐

热门专题