1. 访问df结构中某条记录使用loc或者iloc属性。loc是按照index或者columns的具体值,iloc是按照其序值。访问类似于ndarray的访问,用序列分别表示一维和二维的位置。

  例如:missing_data.loc['MasVnrType']  访问index为'MasVnrType'的行(如果有多行,才需要两对中括号,里面的中括号表示index列表

     missing_data.loc['MasVnrType', 'Total']  用来访问index为'MasVnrType',columns为'Total'的数据

     missing_data.loc[['MasVnrType', 'MasVnrArea'], ['Total']]  访问index为'MasVnrType', 'MasVnrArea', columns为'Total'的数据

     missing_data.iloc[[1]]  表示index序值为1的记录(0-indexed)

In [1]: df = DataFrame(randn(5,2),index=range(0,10,2),columns=list('AB'))

In [2]: df
Out[2]:
A B
1.068932 -0.794307
-0.470056 1.192211
-0.284561 0.756029
1.037563 -0.267820
-0.538478 -0.800654 In [5]: df.iloc[[2]]
Out[5]:
A B
-0.284561 0.756029 In [6]: df.loc[[2]]
Out[6]:
A B
-0.470056 1.192211

示例代码

2. 对数据变量进行标准正态化分布类 sklearn.preprocessing.StandardScaler http://sklearn.lzjqsdd.com/modules/preprocessing.html

3. Pandas 中的空值用 None 表示

4. 两个逻辑值序列求交或者并用 & 符号或者 | 符号

5. NaN 参与数值运算的结果仍然为 NaN

6. 如果需要在 IPython Notebook 中显示作图,需要加上 %matplotlib inline

7. 将属性值作为列名进行行列转换

  1. MultiIndex 对象

    构建有两种方式,一种是通过 index 元组的方式,一种是通过多维列表交叉组合的方式。

  2. 在通过 Series 的 unstack 方法将某一级标签转换到 columns 上。

    level 参数指定转换的标签级,-1表示最里面一级。

8. 如何改变 index 或 columns 的顺序

  1. 一种方式是通过 reindex_axis 函数

  2. 另外一种方式是通过重新赋值来改变

    test_df = test_df[train_df.columns]

    改变 index 顺序:test_df = test_df.loc[index]

9. 将带有 multi-level index 的 DataFrame 对象的 index 转换为对应的 columns 插入到原本的 DataFrame 中。

  pd.DataFrame.reset_index() 函数可以完成上述功能

  也可以时使用 MultiIndex 对象的 to_frame() 函数直接将 MultiIndex 转换为 DataFrame。

Pandas 的使用的更多相关文章

  1. pandas基础-Python3

    未完 for examples: example 1: # Code based on Python 3.x # _*_ coding: utf-8 _*_ # __Author: "LEM ...

  2. 10 Minutes to pandas

    摘要   一.创建对象 二.查看数据 三.选择和设置 四.缺失值处理 五.相关操作 六.聚合 七.重排(Reshaping) 八.时间序列 九.Categorical类型   十.画图      十一 ...

  3. 利用Python进行数据分析(15) pandas基础: 字符串操作

      字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join( ...

  4. 利用Python进行数据分析(10) pandas基础: 处理缺失数据

      数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...

  5. 利用Python进行数据分析(12) pandas基础: 数据合并

    pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

  6. 利用Python进行数据分析(9) pandas基础: 汇总统计和计算

    pandas 对象拥有一些常用的数学和统计方法.   例如,sum() 方法,进行列小计:   sum() 方法传入 axis=1 指定为横向汇总,即行小计:   idxmax() 获取最大值对应的索 ...

  7. 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

    一.reindex() 方法:重新索引 针对 Series   重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...

  8. 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍

    一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...

  9. pandas.DataFrame对行和列求和及添加新行和列

    导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFra ...

  10. pandas.DataFrame排除特定行

    使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame 如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列 ...

随机推荐

  1. golang函数学习笔记

    golang函数特点: a.不支持重载,一个包不能有两个名字一样的函数 b.函数是一等公民,函数也是一种类型,一个函数可以赋值给变量 c.匿名函数 d.多返回值   例子1 func add(a, b ...

  2. 从CPU/OS到虚拟机和云计算

      从CPU/OS到虚拟机和云计算  作者:张冬            关于软硬件谁为主导这个话题,套用一句谚语就是三十年河东三十年河西.风水轮流转.软件和硬件一定是相互促进.相互拆台又相互搭台的. ...

  3. Spark2.0机器学习系列之3:决策树

    概述 分类决策树模型是一种描述对实例进行分类的树形结构. 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 .决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造. 生 ...

  4. PAT 1136 A Delayed Palindrome[简单]

    1136 A Delayed Palindrome (20 分) Consider a positive integer N written in standard notation with k+1 ...

  5. Angular 笔记系列(一)项目组织与命名规范

    其实使用 Angular.js 做项目已经很久了,也遇到过许多问题.其中很多问题的出现都是因为没有按照规范或者最佳实践来做,大部分原因是学的不够细,很多 tips 没 get 到,用到项目中就会出现各 ...

  6. hdu 1569 &1565 (二分图带权最大独立集 - 最小割应用)

    要选出一些点,这些点之间没有相邻边且要求权值之和最大,求这个权值 分析:二分图带权最大独立集. 用最大流最小割定理求解.其建图思路是:将所有格点编号,奇数视作X部,偶数视作Y部,建立源点S和汇点T, ...

  7. 2018.9 ECNU ICPC/CCPC Trial Round #2 Query On Tree (树链剖分+线段树维护)

    传送门:https://acm.ecnu.edu.cn/contest/105/problem/Q/ 一棵树,支持两种操作:给一条路径上的节点加上一个等差数列;求两点路径上节点和. 很明显,熟练剖分. ...

  8. CDH5离线安装简记

    需要的介质如下:CM: cloudera-manager-el6-cm5.4.3_x86_64.tar.gzCDH parcel: CDH-5.4.0-1.cdh5.4.0.p0.27-el6.par ...

  9. android 列表图片优化经历

    先上个优化之后的fps图,丝滑流畅:具体实现请看最终优化后的app 背景:一个通讯录app(开源地址),每次登陆时,针对每个用户,如果头像图片不在本地,则生成一个异步下载任务(AsyncTask). ...

  10. JSM 学习(一)

    JMS 支持两类消息传送模型:点对点模型和发布/订阅模型.又称这些消息传送模型为消息传送域.点对点模型和发布订阅模型分别缩写为p2p和Pub/Sub.发布订阅模型用于一对多消息广播,点对点模型用于一对 ...