pandas简单应用

机器学习离不开数据，数据分析离不开pandas。昨天感受了一下，真的方便。按照一般的使用过程，将pandas的常用方法说明一下。

首先，我们拿到一个excel表，我们将之另存为csv文件。因为文件是实验室的资源，我就不分享了。

首先是文件读取

def load_csv(filename):

    data=pd.read_csv(filename)

    data = data.drop(data.columns[39:], axis=1)

    return data

我们调用read_csv文件可以直接读取csv文件。其返回值为DataFrame。excel如果横向拖动太多的话，会生成很多空列。这里我们通过drop方法删掉39列之后的列。

然后pandas为了让显示美观，会在输出信息的时候自动隐藏数据。我们调整参数，使数据全部显示。

    pd.set_option('display.max_rows', 10)

    pd.set_option('display.max_columns', 500)

    pd.set_option('display.width', 500)

设置最多显示10行，500列。宽度为500.

使用 data.head()可以查看前4行的数据。

print(data.head())

可以看到全部数据都被显示出来了。然后我们可以使用data.info() ,data.discribe()、data.count()查看数据的整体信息。

    print(data.info())

    print(data.describe())

    print(data.count())

data.info()显示的是：

data.describe()显示的是：

data.count()显示的是：

可以看到数据的值跨度很大，所以我们对数据进行normalization：

    keys=X.keys().tolist()

    keys.remove("Index")

    keys.remove("Label")

    for key in keys:

        #将数值范围限定在-0.5~0.5

        #normalize_col=(X[key]-(X[key].max()+X[key].min())/2)/(X[key].max()-X[key].min())

        #用mean来normolize

        normalize_col = (X[key] - X[key].mean()) / (X[key].max() - X[key].min())

        X = X.drop(key, axis=1)

        X[key]=normalize_col

我们可以通过keys中列名来有选择的进行归一化处理。

有时候，有的不和规范的数据我们想删掉：

    #删掉JiGan为-1的人

    data = data[data["JiGan"].isin([-1.0]) == False]

数据筛选还有其他函数，用到了在慢慢补充吧。

pandas简单应用的更多相关文章

python之pandas简单介绍及使用（一）
python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...
numpy和pandas简单使用
numpy和pandas简单使用 import numpy as np import pandas as pd 一维数据分析 numpy中使用array, pandas中使用series numpy一 ...
数据处理之pandas简单介绍
Offical Website :http://pandas.pydata.org/ 一:两种基本的数据类型结构 Series 和 DataFrame 先来看一下Series import panda ...
[Python]Pandas简单入门（转）
本篇文章转自 https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb?hl=zh-cn#scrollTo=zCOn ...
Python Pandas 简单使用之 API熟悉
1.read_csv li_index = ['round_id', 'index', 'c-sequen' ] dataset = pd.read_csv(file, low_memory=Fals ...
python pandas简单使用处理csv文件
这里jira.csv是个大文件 1) >>> import pandas >>> jir=pandas.read_csv(r'C:\Temp\jira.csv') ...
\(\rm LightOJ 1371 - Energetic Pandas 简单计数+组合\)
http://www.lightoj.com/volume_showproblem.php?problem=1371 题意:给你n根竹子,和n只熊猫(XD),每个熊猫只能选择重量不大于它的竹子,问有几 ...
Pandas简单操作（学习总结）
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),是一个提供高性能.易于使用的数据结构和数据分析工具. 接下来查看Pandas的基本使用: # 导入模块 i ...
Pandas模块：表计算与数据分析
目录 Pandas之Series Pandas之DataFrame 一.pandas简单介绍 1.pandas是一个强大的Python数据分析的工具包.2.pandas是基于NumPy构建的. 3.p ...

随机推荐

ROS学习（四）—— 创建ROS Package
一.caktin Package的组成 1.必须含有 package.xml文件,提供有关程序包的元信息 2.必须含有一个catkin版本的 CmakeLists.txt文件,如果是一个catkin元 ...
解析form表单数据
//解析form表单数据 function parseFormData(params) { var args = new Object(); for(var key in params){ if(!p ...
C# WinForm给Button或其它控件添加快捷键响应
今天做东西遇到要给按钮添加快捷键.就在这介绍三种添加快捷键的方式. 第一种Alt + *(按钮快捷键) 在大家给button.label.menuStrip等控件设置Text属性时在名字后边加& ...
C# 自定义控件，日期时间选择输入插件
权声明:本文为博主原创文章,未经博主允许不得转载. // 为textBox1添加一个日期时间选择控件 DateTimeChoser.AddTo(textBox1); DateTimeChoser.De ...
mysql数据库优化 pt-query-digest使用
mysql数据库优化 pt-query-digest使用一.pt-query-digest工具简介 pt-query-digest是用于分析 mysql慢查询的一个工具,它可以分析binlog.Ge ...
flume+elasticsearch+kibana遇到的坑
在elasticsearch中存储数据的行为就叫做索引(indexing),不过在索引之前,我们需要明确数据应该存储在哪里. 在elasticsearch中,文档归属于一种类型(type),而这些类型 ...
MongoDB学习笔记（6）--find
MongoDB 查询文档 MongoDB 查询文档使用 find() 方法. find() 方法以非结构化的方式来显示所有文档. 语法 MongoDB 查询数据的语法格式如下: db.collecti ...
unity, ContentSizeFitter立即生效
ugui Text上添加了ContentSizeFitter组件后,如果在代码里对Text.text重新赋值,文本框并不会马上改变大小,而是会延迟到下一帧. 如果想立刻生效,需要调用 Text.Get ...
Windows 计划任务 Task Schedule 怎么运行 .bat文件
1. 新建 test.bat 需要切换文件夹以后并且执行程序. cd /D "F:\xxxfolder" && dotnet testdll.dll 2. 直接设 ...
CSS边框闪烁呼吸样式
<html> <body> <head> .arrow_box{animation: glow 800ms ease-out infinite alternate; ...

pandas简单应用

pandas简单应用的更多相关文章

随机推荐

热门专题