Python数据分析------例子1（信用卡欺诈）

1、读取数据

data=read_csv(path)

data.head()

#画图（查看class即分类的数据条形图）,函数sort_index()是将dataframe按照行索引来排序输出值

count_classes=pd.value_counts(data['Class'],sort=True).sort_index()

count_classes.plot(kind='bar')

plt.title("*****")

plt.xlable("class")

plt.ylable("Frequency")

2、认识数据

①数据特征的量纲差距（即归一化/标准化处理）

from sklearn.processing import StanarScaler

#将特征'Amount'归一化成新的特征'normAmount'，这里的reshape函数是将dataframe转化成array，fit_transform的参数需要是数组。
#fit_transform()是将数据fit再transform，主要作用是将数据标准化成均值为0，方差为1的数，范围在【-1，1】之间。
data['normAmount']=StandarScaler().fit_transform(data['Amount'].reshape(-1,1))

#将没有用的数据特征删除

data=data.drop('Amount','time')

②数据分布不均衡（比方说分类，0-1分类，0的数据远远大于1的数据）

处理方式：下采样、过采样。

下采样：将多的数据变得和少的数据一样少。

过采样：将少的数据变得和多的数据一样多。

以下是下采样：

#下采样

#将dataframe分为X和Y，其中不等于Class属性的为X，将属性值Class作为Y

X=data.ix[:,data.columns!='Class']

y=data.ix[:,data.columns=='Class']

#少的数据数量确定为number_fraud，也就是随机采样的数量。

number_fraud = len(data[data.Class == 1])

#少的数据的索引，转化成array形式，这样方便多的数据采样后的索引进行合并。用函数np.concatenate

fraud_indices = np.array(data[data.Class == 1].index)

#多的数据索引

normal_indices = data[data.Class == 0].index

#random中的choice函数，第一个参数就是要采样的数据，第二个参数是采样量，第三个是没有重复替换的数据

random_normal_indices = np.random.choice(normal_indices, number_records_fraud, replace = False)

random_normal_indices = np.array(random_normal_indices)

#合并采样后的多数据和少的数据的索引

under_sample_indices = np.concatenate([fraud_indices,random_normal_indices])

#根据合并后的索引来取数据

under_sample_data = data.iloc[under_sample_indices,:]

X_undersample = under_sample_data.ix[:, under_sample_data.columns != 'Class']

y_undersample = under_sample_data.ix[:, under_sample_data.columns == 'Class']

过采样：SMOTE算法、ADASYN算法

SMOTE：对于少数类样本a，随机选择一个最近邻的样本b，然后从a和b的连线上随机选取一个点c作为新的少数类样本。

计算步骤：

（1）对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

（2）根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x,从其k近邻中随机选择若干个样本，假设选择的近邻为xn。

（3）对于每一个随机选出的近邻xn，分别与原样本按照如下的公式构建新的样本。

X(new)=x+rand(0,1)×（^x-x) 【^x为均值】

比如:我要将少数类样本数量增大5倍，则N=5，选出x的5近邻，计算它的均值^x，再计算其与x的距离取随机值。

代码如下：

#引入不平衡类模块的上采样

from imblearn.over_sampling import SMOTE

#

oversampler=SMOTE(random_state=0)

X,Y=oversampler.fit_sample(X_train,Y_train)

ADASYN：关注的是在那些基于K最近邻分类器被错误分类的原始样本附近生成新的少数类样本

③缺失值、异常值

3、预处理

①交叉验证：切分训练集合测试集。

from sklearn.cross_validation import train_test_split

#整个数据集的切分【作为后面预测的时候用的数据】

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.3, random_state = 0)

# 下采样数据集的切分

X_train_undersample, X_test_undersample, y_train_undersample, y_test_undersample = train_test_split(X_undersample

                                                                                                   ,y_undersample

                                                                                                   ,test_size = 0.3

                                                                                                   ,random_state = 0)

4、模型评估（如用召回率来评估）recall=TP/(TP+FN)

Python数据分析------例子1（信用卡欺诈）的更多相关文章

机器学习_线性回归和逻辑回归_案例实战：Python实现逻辑回归与梯度下降策略_项目实战：使用逻辑回归判断信用卡欺诈检测
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值误差满足 ...
kaggle信用卡欺诈看异常检测算法——无监督的方法包括：基于统计的技术，如BACON *离群检测多变量异常值检测基于聚类的技术；监督方法：神经网络 SVM 逻辑回归
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
【读书笔记与思考】《python数据分析与挖掘实战》-张良均
[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...
Python数据分析入门
Python数据分析入门最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内 ...
（python数据分析）第03章 Python的数据结构、函数和文件
本章讨论Python的内置功能,这些功能本书会用到很多.虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的. 我们会从Python最基础 ...
KNIME + Python = 数据分析+报表全流程
Python 数据分析环境数据分析领域有很多可选方案,例如SPSS傻瓜式分析工具,SAS专业性商业分析工具,R和python这类需要代码编程类的工具.个人选择是python这类,包括pandas,n ...
Python数据分析笔记
最近在看Python数据分析这本书,随手记录一下读书笔记. 工作环境本书中推荐了edm和ipython作为数据分析的环境,我还是刚开始使用这种集成的环境,觉得交互方面,比传统的命令行方式提高了不少. ...
Python数据分析必备Anaconda安装、快捷键、包安装
Python数据分析必备: 1.Anaconda操作 Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便 ...

随机推荐

F5 datasheet
[luogu4107 HEOI2015] 兔子与樱花（树形dp+贪心）
传送门 Description 很久很久之前,森林里住着一群兔子.有一天,兔子们突然决定要去看樱花.兔子们所在森林里的樱花树很特殊.樱花树由n个树枝分叉点组成,编号从0到n-1,这n个分叉点由n-1个 ...
windows 查看端口号被占用
1.netstat -ano 2.tasklist | findstr xxx 3.进程管理杀掉
Centos6.5安装Seafile，遇到的问题处理记录。
问题1:启动Seafile安装脚本时,提示找不到MySQL-python模块,使用yum安装成功也提示未安装该软件包问题1解决方法:需要通过 python 的工具pip来安装MySQL-python ...
TensorFlow实现LeNet5模型
# -*- coding: utf-8 -*-import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_ ...
CentOS中防火墙相关的命令(CentOS7中演示)
CentOS中防火墙程序主要是firewall和iptables,CentOS7中firewall服务已经默认安装好了,而iptables服务需要自己用yum install iptabes-se ...
Matlab中的函数句柄@
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50699990 @是Matlab中的句柄 ...
ie6 bug 收集
1.IE6中奇数宽高的BUG IE6下查看,变成了right:1px的效果了: IE6还有奇数宽高的bug,解决方案就是将外部相对定位的div宽度改成偶数.高度也是一样的查看源码: CSS代码: #o ...
基础框架整合-ssm框架+前后台交互完整教程
1.基本概念 ssm:spring+springMVC+mybatis 2.开发环境 Eclipse mars + jdk1.7 + maven + tomcat7 3.使用maven构建web项目 ...
NEFU 119
和上一题一样,注意除不尽为0 #include <iostream> #include <cstdio> #include <cstring> #include & ...