缺失值处理

import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
# data=pda.read_excel("D:/taobao2.xls")
def index(data):
data = pda.DataFrame(data[1:],columns=data[0])
print(data)
data["价格"][(data["价格"]==0)]=None
print(data)
x=0
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]:
data[i][j]=data["价格"].mean()
x+=1
print(x) if __name__ == "__main__":
data = nosupervision_read_data()
index(data)

数据离散化处理

#离散化
#连续型数据离散化
#等宽离散化
import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
# data=pda.read_excel("D:/taobao2.xls")
def index(data):
data = pda.DataFrame(data[1:], columns=data[0])
da=data.values
price=da[:,2]
price.sort()
print(price)
k=5
c1=pda.cut(price,k,labels=["太便宜","便宜","适中","贵","太贵"])
print(c1)
#指点区间离散化
k=[0,50,100,price.max()]
print(k)
c2=pda.cut(price,k,labels=["非常便宜","适中","贵"])
print(c2)
if __name__ == "__main__":
data = nosupervision_read_data()
index(data)

数据集成处理

# -*- coding:utf-8 -*-
# 异常值处理
import pandas as pda
import numpy as npy
def index(data):
# 输出结果必须为字典output
output = {}
# data = pda.read_excel("D:/taobao2.xls")
data = pda.DataFrame(data[1:], columns=data[0])
# print(data)
da = data.values
# 数据集成
da1 = da[0:10]
da2 = da[10:20]
da3 = npy.concatenate((da1, da2))
pda.DataFrame(da3)
output['data_数据集成'] = pda.DataFrame(da3).values.tolist()
print(pda.DataFrame(da1))
print(pda.DataFrame(da2))
print(pda.DataFrame(da3))
print(output)
return output
if __name__ == "__main__":
data = nosupervision_read_data()
index(data)

  

python数据预处理的更多相关文章

  1. Python数据预处理:机器学习、人工智能通用技术(1)

    Python数据预处理:机器学习.人工智能通用技术 白宁超  2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...

  2. python data analysis | python数据预处理(基于scikit-learn模块)

    原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...

  3. python数据预处理for knn

    机器学习实战 一书中第20页数据预处理,从文本中解析数据的程序. import numpy as np def dataPreProcessing(fileName): with open(fileN ...

  4. Python数据预处理—归一化,标准化,正则化

    关于数据预处理的几个概念 归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...

  5. Python数据预处理之清及

    使用Pandas进行数据预处理 数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...

  6. Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler),标准化(StandardScaler),正则化(Normalizer, normalize)

      关于数据预处理的几个概念 归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...

  7. python数据预处理和特性选择后列的映射

    我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化.归一化.方差过滤的时候数据都从D ...

  8. Python数据预处理:使用Dask和Numba并行化加速

    如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...

  9. Python数据预处理—训练集和测试集数据划分

    使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...

  10. 关系网络数据可视化:2. Python数据预处理

    将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...

随机推荐

  1. Spring @Required 注释

    @Required 注释应用于 bean 属性的 setter 方法,它表明受影响的 bean 属性在配置时必须放在 XML 配置文件中,否则容器就会抛出一个BeanInitializationExc ...

  2. HDU2859

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2859 AC思路:(思路来源于kuangbin,甚至做法也跟kuangbin大同小异,所以可以将本文看成 ...

  3. 【python爬虫】scrapy入门2--自定义item

    items.py class LianhezaobaospyderItem(scrapy.Item): # define the fields for your item here like: # n ...

  4. sql语句中的删除操作

    drop: drop table tb; 删除内容和定义,释放空间.简单来说就是把整个表去掉.以后不能再新增数据,除非新增一个表. truncate: truncate table tb; 删除内容. ...

  5. 题解 P4071 【[SDOI2016]排列计数】 (费马小定理求组合数 + 错排问题)

    luogu题目传送门! luogu博客通道! 这题要用到错排,先理解一下什么是错排: 问题:有一个数集A,里面有n个元素 a[i].求,如果将其打乱,有多少种方法使得所有第原来的i个数a[i]不在原来 ...

  6. [256个管理学理论]001.蝴蝶效应(Butterfly Effect)

    蝴蝶效应(Butterfly Effect) 来自于大洋彼岸的让你看不懂的解释: 蝴蝶效应是指在一个动力系统中,初始条件下微小的变化能带动整个系统的长期的巨大的连锁反应,是一种混沌的现象.“蝴蝶效应” ...

  7. [JavaWeb基础] 015.Struts2 表单验证框架

    在web开发的过程中,我们经常要用到一些填写表单的操作,我们一般都要在提交表单信息的时候对表单的内容进行验证,struts2给我们提供了简单的实现接口,让我们可以很容易的对表单进行验证.下面讲解下最传 ...

  8. 枚举&注解

    枚举:自定义枚举类 使用Enum关键字定义的枚举类 注解:jdk内置的基本注解类型(3个) 自定义注解类型 对注解进行注解(元注解4个) 利用反射获取注解信息(反射部分涉及) 自定义枚举类: Test ...

  9. DQN(Deep Q-learning)入门教程(六)之DQN Play Flappy-bird ,MountainCar

    在DQN(Deep Q-learning)入门教程(四)之Q-learning Play Flappy Bird中,我们使用q-learning算法去对Flappy Bird进行强化学习,而在这篇博客 ...

  10. 小谢第6问:js中,filter函数是怎么使用的

    数组的常用方法filter,今天在做数组筛选的时候用到需要将有重复的数组去除,因此用到这个函数,主要用到-- 选择需要的属性,最终留下想要的数组,如果刚开始的话可以看下下面代码 let nums = ...