Pandas的api 参考手册DataFrame部分:https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

数据处理部分:

待处理的数据:

处理要求:1.food栏,大小写统一,2.删除NaN行,3.把ounces中的负值取绝对值,4.把food名称相同的字段合并,合并后ounces的值为合并前他们的平均值

代码如下:

# -*- coding: utf-8 -*-
import pandas as pd
df = pd.read_csv('E:/python3Project/11.csv')
#print(df)
df['food'] = df['food'].str.lower() #统一大小写字母 df.dropna(inplace=True) #删除数据缺失的记录
print(df)
df['ounces']=df['ounces'].apply(lambda a:abs(a)) #负值不合法,取绝对值
#print(df)
#查找food重复的记录,分组求其平均值
#print(df['food'].duplicated(keep=False))
#d_rows = df[df['food'].duplicated(keep=False)] # keep=False的意思是把所有的food列下重复的字段都找出来
#print(d_rows)
#g_items = d_rows.groupby('food').mean() # 学学groupBy
#print(g_items)
#g_items['food']=g_items.index #效果就是新增一列food
#print(g_items) #把第一个出现的bacon替换成平均值
df.loc[0,'ounces']=df[df['food'].isin(['bacon'])].mean()['ounces']
# 删除第二个ounce
df.drop(df.index[4],inplace=True)
print(df)
df.index =range(len(df)) # 重新把row的index排列一下,按照连贯顺序,从小到大
print(df) #把第一个出现的pastrami替换成平均值
df.loc[0,'ounces']=df[df['food'].isin(['pastrami'])].mean()['ounces']
# 删除第二个ounce
df.drop(df.index[4],inplace=True)
print(df)
df.index =range(len(df)) # 重新把row的index排列一下,按照连贯顺序,从小到大
print(df)

Python数据分析Pandas的编程经验总结的更多相关文章

  1. Python/Numpy大数据编程经验

    Python/Numpy大数据编程经验 1.边处理边保存数据,不要处理完了一次性保存.不然程序跑了几小时甚至几天后挂了,就啥也没有了.即使部分结果不能实用,也可以分析程序流程的问题或者数据的特点.   ...

  2. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  3. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

  4. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

  5. python 数据分析--pandas

    接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...

  6. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  7. Python数据分析 Pandas模块 基础数据结构与简介(一)

    pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...

  8. Python数据分析Pandas库之熊猫(10分钟二)

    pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...

  9. Python数据分析Pandas库之熊猫(10分钟一)

    pandas熊猫10分钟教程 排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...

随机推荐

  1. weblogic 安全漏洞问题解决

    1 weblogic控制台地址暴露 ²  整改方法: 禁用weblogic控制台.在weblogic域(sguap-domain和base-domain)的config下的config.xml中 &l ...

  2. X264-视频帧的存取

    X264的编码器结构体x264_t中的子结构体字段frames包含了4个临时视频帧序列空间:current.next.unused和reference,分别保存当前编码帧.将编码帧序列.未处理原始视频 ...

  3. jQuery的window.onload和$(function(){})

    <script src="js/jquery-1.11.3.js"></script> <script> //在onload事件中,所有页面内容 ...

  4. windows 7系统下查看被占用的端口并解除占用

    运行输入cmd,在命令行输入 netstat -ano 查找所占用端口所在的行,如图本例子被占用端口为9999,记住对应的pid 然后输入 tasklist|findstr pid(此处为9528) ...

  5. 浏览器地址栏输入url回车之后发生了些什么

    1.输入地址 当我们开始在浏览器中输入网址的时候,浏览器其实就已经在智能的匹配可能得 url 了,他会从历史记录,书签等地方,找到已经输入的字符串可能对应的 url,然后给出智能提示,让你可以补全ur ...

  6. ETA:

    Route-based models - Simple Additive Model- Data-driven Model Path-free models - MURAT Model Chun-Hs ...

  7. Excel-图表制作

    柱形图:通常使用柱形图比较数据间的数量关系 折线图:使用折线图来反映数据间的趋势关系 饼图:使用饼图来表示数据间的分配关系  对图表进行刷选 再图表设计下的快速布局可以选择各种样式 迷你图  对某列单 ...

  8. __str__与__repr__的触发顺序总结

    1.__str__是个内置的方法,无需使用者去调用,其会在满足某一条件时自动触发.那么要触发它运行都有哪些条件呢? 有三种条件,分别为:print , str , %s 2.__repr__同样是个内 ...

  9. [LeetCode] 915. Partition Array into Disjoint Intervals 分割数组为不相交的区间

    Given an array A, partition it into two (contiguous) subarrays left and right so that: Every element ...

  10. [LeetCode] 871. Minimum Number of Refueling Stops 最少的加油站个数

    A car travels from a starting position to a destination which is target miles east of the starting p ...