使用pandas,numpy进行数据分析建模的一些常用命令
1、读取文件为pandas格式:
import pandas as pd
import numpy as np
dataset = pd.read_csv("C:/Users/Administrator/Desktop/test.csv",encoding='gbk')
这样就读取了一个csv文件作为dataframe格式的文件,结果如下:

2、查看读取数据的概况和维度使用如下命令:
dataset.head() # 若括号不填写任何信息,默认查看df的前五行,当然也可以填写数字,填写几就查看前几行的数据
dataset.shape # 查看数据的维度信息,即df数据有几行几列
3、获取所需字段:
X = dataset.loc[:,['CLASS_LEVEL','COMBINE_TAG_LEN','TAG_POS','SIMI']]
这里loc默认是[a,b]这种格式,a代表需要获取行的名称,b代表需要获取列的名称,假如a用:表示意味着获取所有的行,列也同理;上述代码代表就是获取
CLASS_LEVEL,COMBINE_TAG_LEN等所在列的所有行的数据;
4、随机抽取数据:
data_0_random = data_0.sample(n=854)
上述代码表示对data_0用sample函数随机抽取了854条数据
5、数据合并:
aa = [data_1,data_0_random]
dataset = pd.concat(aa)
这里也可以用append来代替concat:
data_1_random = data_1.sample(n=86)
data_new = data_0.append(data_1_random)
new_train_data_X = pd.concat([X3,class_id1_df,class_id2_df,class_id3_df],axis =1)
上述代码表示对data_1和data_0_random进行合并,也就是相当于在data_1的最后一行下将data_0_random都复制过来
第6行代表将list =[X3,class_id1_df,class_id2_df,class_id3_df]这些列进行合并,这里可以看到axis=1就是代表列的意思;
6、将list转换为numpy中的array格式:
import numpy as np
class_names1 = np.array(['',''])
7、删除df中一列的内容:
X = dataset.drop('Class', axis=1)
代表将dataset这个文件中的class列删除,注意axis=1,代表删除列;
8、数据量太多,但是还是想要显示所有行进行查看:
import pandas as pd
import numpy as np
np.set_printoptions(threshold=np.inf)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
在代码最前端输入上述三行代码,即可在进行数据分析时候显示所有的读取数据
9、对字符数据进行one-hot编码:
import pandas as pd
import numpy as np
dataset = pd.read_csv(open("C:/Users/Administrator/Desktop/test.csv",'r',encoding='gbk'))
X = dataset.loc[:,['CLASS_ID1','TAG_POS1','TAG_SIMI1','CLASS_ID2','TAG_POS2','TAG_SIMI2','CLASS_ID3','TAG_POS3','TAG_SIMI3']]
class_id1_df = pd.DataFrame()
class_id1_df = pd.get_dummies(X['CLASS_ID1'],prefix = 'CLASS_ID1')
这里选取class_id1进行one-hot编码,即将字符变为[0,1,1,10]类似这种形式的数字编码,从而方便后期进行建模;
核心编码就两行,第5行代表初始化一个编码结果的空表,第6行代表对class_id1进行one-hot编码,其中prefix代表需要编码的那一列;
10、数据映射:
from pandas import Series
data = [[0,1,0,0,0,0],[0,0,1,0,0,0]]
sl = Series(data,index = ['A01','A02'])
sl
输出:
A01 [0, 1, 0, 0, 0, 0]
A02 [0, 0, 1, 0, 0, 0]
dtype: object
11、选取一列等于某个值的数据,类似SQL中的select。。。where语句
data_0 = dataset.loc[dataset['MARK_RESULT']==0] # 选取mark=1的值
data_1 = dataset.loc[dataset['MARK_RESULT']==1] # 选取mark=1的值
12、查看相关系数矩阵:
dataset_corr = data_new.corr()
dataset_corr['MARK_RESULT'].sort_values(ascending = False)
在进行数据分析的时候往往要查看所有的自变量中哪两个属性的相关系数较大,从而选取一些典型的特征属性来建模,效果才会更好,可以用corr()方法来进行相关系数计算,并且还
可以对某个属性按照相关系数大小进行排列,从而找到与某个属性最相关的其他属性;
13、获取df某些列的数据,并且按照array格式进行查看:
data = dataset.loc[:, ['CLASS_LEVEL', 'COMBINE_TAG_LEN', 'TAG_POS','TAG_ORDER_POS', 'SIMI']].values
data
输出:
array([[3. , 2. , 0.95, 3. , 0.65],
[5. , 5. , 0.95, 3. , 0.65],
[2. , 2. , 0.95, 1. , 0.95],
...,
[4. , 2. , 0.95, 1. , 0.55],
[4. , 3. , 0.95, 3. , 0.75],
[3. , 2. , 0.95, 1. , 0.95]])
只需要用values方法即可;
14、df中新添加一列,并且该列为其他两列之和:
dataset['plus']=dataset['A']+dataset['B']
dataset
在dataset中新增加一列plus,并且该列为A列和B列的和;
使用pandas,numpy进行数据分析建模的一些常用命令的更多相关文章
- python及pandas,numpy等知识点技巧点学习笔记
python和java,.net,php web平台交互最好使用web通信方式,不要使用Jypython,IronPython,这样的好处是能够保持程序模块化,解耦性好 python允许使用'''.. ...
- pandas numpy处理缺失值,none与nan比较
原文链接:https://junjiecai.github.io/posts/2016/Oct/20/none_vs_nan/ 建议从这里下载这篇文章对应的.ipynb文件和相关资源.这样你就能在Ju ...
- 数据分析基础之pandas & numpy
一.jupyter的常用快捷键 - 插入cell: a, b a是after从后插入 a是before 从前插入 - 删除cell: dd, x 都可以 - 修改cell的模式:m, y - t ...
- pandas模块(数据分析)------Series
pandas是一个强大的Python数据分析的工具包. pandas是基于NumPy构建的. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能 提供丰 ...
- 机器学习 三剑客 之 pandas + numpy
机器学习 什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商 等... 目的: 让机器学习 ...
- python pandas/numpy
import pandas as pdpd.merge(dataframe1,dataframe2,on='common_field',how='outer') replace NaN datafra ...
- 【原创】大叔经验分享(11)python引入模块报错ImportError: No module named pandas numpy
python应用通常需要一些库,比如numpy.pandas等,安装也很简单,直接通过pip # pip install numpyRequirement already satisfied: num ...
- Python pandas & numpy 笔记
记性不好,多记录些常用的东西,真·持续更新中::先列出一些常用的网址: 参考了的 莫烦python pandas DOC numpy DOC matplotlib 常用 习惯上我们如此导入: impo ...
- Pandas 高级应用 数据分析
深入pandas 数据处理 三个阶段 数据准备 数据转化 数据聚合 数据准备 加载 组装 合并 - pandas.merge() 拼接 - pandas.concat() 组合 - pandas.Da ...
随机推荐
- 【网易官方】极客战记(codecombat)攻略-森林-流星雨star-shower
流星雨不仅是一个了不起的现象,而且是获得一些钱的好机会. 简介 流星雨正在下着你的宝石和硬币! 但星形金属不是很长寿,硬币很快就消失了. 宝石不会消失. 使用或语句提取密切的金币或宝石: if ite ...
- (最全最灵活地)利用Jxl工具包实现Excel表的内容读取 、写入(可向已有表中追加数据)
1.引子 (1)读取 Jxl工具比较强大,可以方便地实现Excel表的读取和写入.另一款工具Poi也具有相似的功能,并且功能更多,运用也相对复杂.Poi读取Excel表内容时,需要先判断其内容格式,如 ...
- 【范式与函数依赖】3NF与BCNF的区别
*本文中码指代候选码,主属性为构成码的属性. 先简要引入几个概念 图1 图2 单拿出来我认为不是很好理解的3NF和BCNF详细的说说. 书上写了,BCNF是完善后的3NF.从图2中显然得出,1-3NF ...
- webpack--删除dist目录
1.安装clean-webpack-plugin插件 npm install clean-webpack-plugin --D 2.在webpack.dev.conf.js或者webpack.conf ...
- ruoyi StringUtils
package com.ruoyi.common.utils; import java.util.Collection; import java.util.Map; import com.ruoyi. ...
- springboot学习笔记:9.springboot+mybatis+通用mapper+多数据源
本文承接上一篇文章:springboot学习笔记:8. springboot+druid+mysql+mybatis+通用mapper+pagehelper+mybatis-generator+fre ...
- mysql批量删除报1064原因
DELETE FROM table_name t where t......; 报1064 错误,原因MySQL 中delete 语句不能给表名起别名. 另外.如果记录不存在,delete from ...
- [SDOI2019]世界地图(kruskal重构树+虚树)
通过子任务1.3十分显然,子任务4实际上就是线段树,和我下午写的[SDOI2015]道路修建一模一样,堪称“我抄我自己”,不会的可以先做一下这个题. 然后考虑正解,参考了zhoushuyu的博客,首先 ...
- ac_查看每个用户登陆服务器所使用的时间
ac 如果你想知道每个用户登录服务器所使用的时间,你可以使用 ac 命令.这个命令需要你安装acct 包(Debian)或 psacct 包(RHEL,Centos). 如果我们想知道所有用户登陆服务 ...
- drf框架与postman初始
drf框架 全称:django-rest framework 知识点 """ 1.接口:什么是接口.restful接口规范 2.CBV生命周期源码 - 基于restful ...