pandas小结
pandas part I:
# 总结:
- DataFrame.loc[0:5] 一共6行数据,而切片[0:5]只有5个数据
- 在对df的行数据删除后,有些index已缺失,此时用 iloc[]来按照位置索引
- 取指定行 food_info.loc[[2,5,10]],传入list
- 取指定列 zinc_copper = food_info[["Zinc_(mg)", "Copper_(mg)"]]
- 取指定后缀名的列:
- col_names = food_info.columns.tolist()
- gram_columns = []
- for c in col_names:
- if c.endswith("(g)"):
- gram_columns.append(c)
- food_info.sort_values("Sodium_(mg)", inplace=True) #默认升序,可以用 ascending=False来降序
pandas part II:
- 根据age_is_null = titanic_survival["Age"].isnull(), 返回索引,
- 根据索引的True,False,来获取null的集合: age_null_true = age[age_is_null]
- 如果某列中有nan,任何运算结果都是nan
- 取 good_ages = titanic_survival["Age"][age_is_null == False]
- correct_mean_age = sum(good_ages) / len(good_ages)
- 但是缺失数据的表很普遍,于是pandas用correct_mean_age = titanic_survival["Age"].mean()来解决nan问题
- 按要求选取指定行:pclass_rows = titanic_survival[titanic_survival["Pclass"] == this_class]
- 对指定行的某列进行运算: pclass_fares_mean = pclass_rows["Fare"].mean()
- 数据透视表: 默认aggfunc为np.mean
- passenger_survival = titanic_survival.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)
- 多列透视表:values传入一个list
- port_stats = titanic_survival.pivot_table(index="Embarked", values=["Fare","Survived"], aggfunc=np.sum)
- 去掉有nan的列: titanic_survival.dropna(axis=1) #age canbin embark
- 去掉指定列中有nan的行 : titanic_survival.dropna(axis=0,subset=["Age", "Sex"])
- 取指定index行的某列的一个数据: titanic_survival.loc[83,"Age"]
对所有列数据应用函数:
def not_null_count(column):
column_null = pd.isnull(column)
null = column[column_null]
return len(null)column_null_count = titanic_survival.apply(not_null_count)
pandas part III:
- 获取Series的值 fandango['FILM'].values
- 取某一列为另一列的索引:series_custom = Series(fandango['RottenTomatoes'].values , index=fandango['FILM'].values)
- 用series_name限制条件series_greater_than_50 = series_custom[series_custom > 50]
- 取到所有列的类型:types = fandango_films.dtypes
- types[types.values == 'float64'].index 本质上是从types 回到 索引上
- deviations = fandango_films[float_columns].apply(lambda x: np.std(x)) 对所有float类型数据应用方差
- groupby将一列中的元素进行分组,idxmax取出对应列group的最大索引位置,score_series=df.groupby("ID")["m_score"].idxmax()
- df.groupby(df['class1'])['data1'] == df['data1'].groupby(df['class1']) 是一个整体,要取出数据,则.idxmax()等操作
- df.groupby(df['class1'])['data1'] : <pandas.core.groupby.SeriesGroupBy object at 0x000001F1CEDF0AC8>
pandas小结的更多相关文章
- pandas用法小结
前言 个人感觉网上对pandas的总结感觉不够详尽细致,在这里我对pandas做个相对细致的小结吧,在数据分析与人工智能方面会有所涉及到的东西在这里都说说吧,也是对自己学习的一种小结! pandas用 ...
- python4delphi import lxml pandas 出错的小结
环境: 1.win10 64位 2.delphi xe8 3.python2.7 4.python4delphi (svn 2015-03-21 发布的83版本号) 5.lxml 3.4.4(通过p ...
- python中pandas里面的dataframe数据的筛选小结
pandas大家用的都很多,像我这种用的不够熟练,也不够多的就只能做做笔记,尽量留下点东西吧. 筛选行: a. 按照列的条件筛选 df = pandas.DataFrame(...) # suppos ...
- pandas replace函数使用小结
http://blog.csdn.net/kancy110/article/details/72719340
- scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
- scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
- 用scikit-learn和pandas学习Ridge回归
本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归. 1. Ridge回归的损失函数 在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适 ...
- pandas 对数据帧DataFrame中数据的索引及切片操作
1.创建数据帧 index是行索引,即每一行的名字:columns是列索引,即每一列的名字.建立数据帧时行索引和列索引都需要以列表的形式传入. import pandas as pd df = pd. ...
- 第三周 数据分析之概要 Pandas库入门
Pandas库介绍: Pandas库引用:Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于NumPy实现,常与NumPy和 ...
随机推荐
- CvvImage在高级别的Opencv2.4.11下的配置以及错误解决办法。
由于高版本的OpenCV2.4.11里取消了CImage(CvvImage),在此我们可以用老的版本替代. 在需要的地方引入 #include "CvvImage.h" 就可以用了 ...
- 算法学习--Day6
题目描述 实现一个加法器,使其能够输出a+b的值. 输入描述: 输入包括两个数a和b,其中a和b的位数不超过1000位. 输出描述: 可能有多组测试数据,对于每组数据, 输出a+b的值. 示例1 输入 ...
- 51nod1179【思维】
题意: 给你n个数,求两两之间的最大GCD: 思路: n太大,然后感觉是分解质因子,但是感觉分解质因子还是搞不出谁和谁的GCD: 但是可以发现,GCD给了一个范围1e6,所以能不能枚举GCD,然后看看 ...
- shader实例(二十二)TexGen-球面贴图SphereMap
http://blog.sina.com.cn/s/blog_89d90b7c0102vfqz.html 球面贴图一般用于环境反射,如下图(左边为球面贴图,右边为正常贴图),一个镜面水晶球在这只猫的前 ...
- Codevs 3112 二叉树计数
3112 二叉树计数 题目描述 Description 一个有n个结点的二叉树总共有多少种形态 输入描述 Input Description 读入一个正整数n 输出描述 Output Descript ...
- A - Beautiful numbers
#include <iostream> #include <algorithm> #include <cstring> #include <cstdio> ...
- django_logging
django使用python自带的logging打印日志 logging 是线程安全的,其主要由4部分组成: Logger 用户使用的直接接口,将日志传递给Handler Handler 控制日志输出 ...
- celery (分布式系统)
celery 介绍 Celery - 分布式任务队列. Celery 是一个简单.灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具. 它是一个专注于实时处理的任务队列,同 ...
- Maximum Control (medium) Codeforces - 958B2
https://codeforces.com/contest/958/problem/B2 题解:https://www.cnblogs.com/Cool-Angel/p/8862649.html u ...
- matplotlib 知识点13:绘制散点图(scatter函数精讲)
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合. 用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间 ...