Pandas排列和随机采样

随机重排序

import pandas as pd

import numpy as np

from pandas import Series

df = pd.DataFrame(np.arange(5*4).reshape(5,4))

df

    0	1	2	3

0	0	1	2	3

1	4	5	6	7

2	8	9	10	11

3	12	13	14	15

4	16	17	18	19

shuffle 的参数只能是 array_like，而 permutation 除了 array_like 还可以是 int 类型，如果是 int 类型，那就随机打乱 numpy.arange(int)。

sampler = np.random.permutation(5)

sampler

array([1, 2, 0, 4, 3])

shuffle 返回 None，这点尤其要注意，也就是说没有返回值，而 permutation 则返回打乱后的 array。

list1 = [1,2,3,4,5]

result = np.random.shuffle(list1)

list1

[2, 5, 4, 1, 3]

df.take(sampler)

    0	1	2	3

1	4	5	6	7

2	8	9	10	11

3	12	13	14	15

0	0	1	2	3

4	16	17	18	19

# 随机采样，取前三行

df.take(np.random.permutation(len(df))[:3])

    0	1	2	3

4	16	17	18	19

2	8	9	10	11

3	12	13	14	15

计算指标/哑变量

将分类变量转换为哑变量矩阵或指标矩阵，如果DataFrame的某一列中含有K个不同的值，

则可以派生出一个K列矩阵或DataFrame(其值全为1和0)

df = pd.DataFrame({'key':['b','b','a','c','a','b'],

                    'data1':range(6)

                  })

df

	key	data1

0	  b	  0

1	  b	  1

2	  a	  2

3	  c	  3

4	  a	  4

5	  b	  5

# 给列加上前缀，get_dummies的prefix参数可以实现该功能

dummies = pd.get_dummies(df['key'],prefix='qianzui')

dummies

 qianzui_a	qianzui_b	qianzui_c

0	0	       1	     0

1	0	       1	     0

2	1	       0	     0

3	0	       0	     1

4	1	       0	     0

5	0	       1	     0

# Series对象是没有join方法的，必须是dataframe

df[['data1']].join(dummies)

   data1	qianzui_a	qianzui_b	qianzui_c

0	0	      0	           1	       0

1	1	      0	           1	       0

2	2	      1	           0	       0

3	3	      0	           0	       1

4	4	      1	           0	       0

5	5	      0	           1	       0

Pandas排列和随机采样的更多相关文章

Pandas随机采样
实现对DataFrame对象随机采样 pandas是基于numpy建立起来的,所以numpy大部分函数可作用于DataFrame和Series数据结构. numpy.random.permutatio ...
11-Pandas之排序（df.sort_index()、df.sort_values()、随机重排、随机采样）
排序是一种索引机制的一种常见的操作方法,也是Pandas重要的内置运算,主要包括以下3种方法: 排序方法说明 sort_values() 根据某一列的值进行排序 sort_index() 根据索引进 ...
关于乱序（shuffle）与随机采样（sample）的一点探究
最近一个月的时间,基本上都在加班加点的写业务,在写代码的时候,也遇到了一个有趣的问题,值得记录一下. 简单来说,需求是从一个字典(python dict)中随机选出K个满足条件的key.代码如下(py ...
随机采样和随机模拟：吉布斯采样Gibbs Sampling实现高斯分布参数推断
http://blog.csdn.net/pipisorry/article/details/51539739 吉布斯采样的实现问题本文主要说明如何通过吉布斯采样来采样截断多维高斯分布的参数(已知一 ...
随机采样和随机模拟：吉布斯采样Gibbs Sampling实现文档分类
http://blog.csdn.net/pipisorry/article/details/51525308 吉布斯采样的实现问题本文主要说明如何通过吉布斯采样进行文档分类(聚类),当然更复杂的实 ...
hive随机采样
hive> select * from account limit 10;OKaccount.accountname account.accid account.platid ac ...
使用 numpy.random.choice随机采样
使用 numpy.random.choice随机采样: 说明: numpy.random.choice(a, size=None, replace=True, p=None) 示例: >> ...
pandas中的随机排序和抽样
1.随机重排序使用take()随机排序如: df.take([54]) #采取索引为54的数据可以借助np.random.permutation()函数随机排序 permutation()函 ...
利用shuf对数据记录进行随机采样
最近在用SVM为分类器做实验,但是发现数据量太大(2000k条记录)但是训练时间过长...让我足足等了1天的啊!有人指导说可以先进行一下随机采样,再训练,这样对训练结果不会有太大影响(这个待考证).所 ...

随机推荐

软件工程 week 05
关于石墨文档客户端的案例分析作业地址:https://edu.cnblogs.com/campus/nenu/2016CS/homework/2505 一.调研测评测试平台:Windows 1 ...
BEAM188简单应用
目录 BEAM188简介 APDL应用实例显示梁三维图 BEAM188简介 BEAM188-3D线性有限应变梁 Beam188 单元适合于分析从细长到中等粗短的梁结构,该单元基于铁木辛哥梁结构理论, ...
第四节《Git检出》
使用过Git的朋友们都谁知道git reset可以达到重置效果,不知道的小伙伴们可以看下上一篇博客,重置命令的一个用途就是修改引用的游标指向,实际上在执行重置命令的时候没有使用任何参数对所要重置的分支 ...
Python神坑：sum和numpy.sum
同样的一段代码,在两个python文件里面执行的结果不一样,一个是按照列单位进行sum一个是所有元素进行sum: def distCal(vecA, vecB): return sqrt(sum(po ...
Linux下usb设备驱动详解
USB驱动分为两块,一块是USB的bus驱动,这个东西,Linux内核已经做好了,我们可以不管,我们只需要了解它的功能.形象的说,USB的bus驱动相当于铺出一条路来,让所有的信息都可以通过这条USB ...
涂抹mysql笔记-数据库中的权限体系
涂抹mysql笔记-数据库中的权限体系<>能不能连接,主机名是否匹配.登陆使用的用户名和密码是否正确.mysql验证用户需要检查3项值:用户名.密码和主机来源(user.password. ...
NIOS II With uCOSII
1.如果使用uCOS,那么Qsys中Nios II核就不能使用外部中断控制器(EIC). 2.遇到很迷惑的问题,运行uCOSII的实例代码,总是在第二个OSTimeDlyHMSM(0, 0, 3, 0 ...
pygame 简单播放音乐程序
环境: python2.7 pygame 功能: 播放指定目录下的歌曲(暂时mp3),可以上一曲.下一曲播放. 文件目录: font 字体文件夹 image 图片文件夹 music 音乐文件夹 ...
js 常用代码片段
一.预加载图像如果你的网页中需要使用大量初始不可见的(例如,悬停的)图像,那么可以预加载这些图像. function preloadImages(){ for(var i=0;i<argume ...
Tomcat的目录结构详细介绍（超全）
打开tomcat的解压之后的目录可以看到如下的目录结构: 1.bin: bin目录主要是用来存放tomcat的命令,主要有两大类,一类是以.sh结尾的(linux命令),另一类是以.bat结尾的(w ...

Pandas排列和随机采样

随机重排序

计算指标/哑变量

将分类变量转换为哑变量矩阵或指标矩阵，如果DataFrame的某一列中含有K个不同的值，

则可以派生出一个K列矩阵或DataFrame(其值全为1和0)

Pandas排列和随机采样的更多相关文章

随机推荐

热门专题