python数据预处理

缺失值处理

import pandas as pda

import numpy as npy

import matplotlib.pylab as pyl

# data=pda.read_excel("D:/taobao2.xls")

def index(data):

  data = pda.DataFrame(data[1:],columns=data[0])

  print(data)

  data["价格"][(data["价格"]==0)]=None

  print(data)

  x=0

  for i in data.columns:

   for j in range(len(data)):

     if(data[i].isnull())[j]:

        data[i][j]=data["价格"].mean()

        x+=1

        print(x)

if __name__ == "__main__":

  data = nosupervision_read_data()

  index(data)

数据离散化处理

#离散化

#连续型数据离散化

#等宽离散化

import pandas as pda

import numpy as npy

import matplotlib.pylab as pyl

# data=pda.read_excel("D:/taobao2.xls")

def index(data):

    data = pda.DataFrame(data[1:], columns=data[0])

    da=data.values

    price=da[:,2]

    price.sort()

    print(price)

    k=5

    c1=pda.cut(price,k,labels=["太便宜","便宜","适中","贵","太贵"])

    print(c1)

#指点区间离散化

    k=[0,50,100,price.max()]

    print(k)

    c2=pda.cut(price,k,labels=["非常便宜","适中","贵"])

    print(c2)

if __name__ == "__main__":

   data = nosupervision_read_data()

   index(data)

数据集成处理

# -*- coding:utf-8 -*-

# 异常值处理

import pandas as pda

import numpy as npy

def index(data):

# 输出结果必须为字典output

   output = {}

# data = pda.read_excel("D:/taobao2.xls")

   data = pda.DataFrame(data[1:], columns=data[0])

# print(data)

   da = data.values

# 数据集成

   da1 = da[0:10]

   da2 = da[10:20]

   da3 = npy.concatenate((da1, da2))

   pda.DataFrame(da3)

   output['data_数据集成'] = pda.DataFrame(da3).values.tolist()

   print(pda.DataFrame(da1))

   print(pda.DataFrame(da2))

   print(pda.DataFrame(da3))

   print(output)

   return output

if __name__ == "__main__":

   data = nosupervision_read_data()

   index(data)

python数据预处理的更多相关文章

Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
python数据预处理for knn
机器学习实战一书中第20页数据预处理,从文本中解析数据的程序. import numpy as np def dataPreProcessing(fileName): with open(fileN ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
python数据预处理和特性选择后列的映射
我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化.归一化.方差过滤的时候数据都从D ...
Python数据预处理：使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...
Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
关系网络数据可视化：2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...

随机推荐

Spring IoC createBean 方法详解
前言本篇文章主要分析 Spring IoC 的 createBean() 方法的流程,以及 bean 的生命周期. 下面是一个大致的流程图: 正文 AbstractAutowireCapableBe ...
在IDEA中使用Spring写一个HelloWorld
准备工作 1.使用IDEA2018专业版, 我试了IDEA2019教育版和IDEA2020社区版,都无法顺利创建一个Spring项目,实在是恼火,一气之下,统统卸载掉. 重装了一个IDEA2018专业 ...
PAT-1064 Complete Binary Search Tree（完全二叉树）
A Binary Search Tree (BST) is recursively defined as a binary tree which has the following propertie ...
洛谷P2754 [CTSC1999]家园
题目链接:https://www.luogu.org/problemnew/show/P2754 知识点: 最大流解题思路: 先用 \(DFS\) 判断是否无解. 从时刻 \(0\) 开始枚举答案, ...
python基础：list与string互转
数据清洗必备技能 https://www.cnblogs.com/yaner2018/p/11162630.html
一言难尽，Jpa这个功能差点让我丢了工作
故事背景前阵子,有位朋友在微信上问我数据被删了能不能恢复,我问了下原因,居然是因为一个配置项惹的祸. 故事细节在 Spring Boot 中使用 jpa 来操作数据库,jpa 就不做详细的介绍了, ...
WordPress免插件生成完整站点地图(sitemap.xml)的php代码
让这个代码更加完善,可以同时生成首页.文章.单页面.分类和标签的 sitemap! 一.PHP 代码 <?php require('./wp-blog-header.php'); header( ...
【Ubuntu】Ubuntu18.04通过重装系统成功安装显卡驱动
0. 前言前面用了一天的时间来解决Ubuntu安装显卡驱动出现的用户输入密码登录后出现的紫屏.循环登录的问题,过程可阅读“[Ubuntu]Ubuntu系统启动过程中,输入用户名与密码后登录一直卡在紫 ...
Java IO（一）概述
Java IO(一)概述一.IO概述 (一).介绍在Java中,所有的数据都是通过流读写的,Java提供了IO来处理设备之间的数据传输,Java程序中,对于数据的输入/输出操作都是以“流”的方式 ...
01Java核心-冷门知识001-包
1)导入静态方法和静态域 import 可以加上static关键字,导入静态的方法和静态域. 例如: package com.gail.test; import static java.lang.Sy ...

python数据预处理

python数据预处理的更多相关文章

随机推荐

热门专题