Titanic缺失数值处理 & 存活率预测

1. kaggle泰坦尼克数据titanic完整下载，原作者良心分享

https://download.csdn.net/download/lansui7312/9936840

2. 缺失值处理

# -*- coding:utf -

import pandas as pd

import numpy as np

from sklearn.ensemble import RandomForestRegressor

df = pd.read_csv('train.csv',header=0)

# SibSp 堂兄弟/妹个数

# Parch 父母与小孩个数

# Cabin 客舱

# Embarked 登船港口

# df.head(20)

# df.info()

# print(df.describe())

# print(df.columns[1])

# 男性和女性幸存率查看

x=[df[(df.Sex=='male')]['Sex'].size,df[(df.Sex=='female')]['Sex'].size]

# print(x)

y=[df[(df.Sex=='male') & (df.Survived==1)]['Sex'].size,

   df[(df.Sex=='female') & (df.Survived==1)]['Sex'].size]

# print(y[1]*100/x[1],y[0]*100/x[0])

# 缺失值处理

# 1. 删掉缺失行

# 2. 上船地点不重要，用众数赋值

df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values

# print(df.Embarked)

#3.  标称属性，赋予缺失值，因为缺失本身可能也是一种隐含信息。比如Cabin代表没有船舱

df.Cabin[df.Cabin.isnull()]='U0'

# print(df.Cabin)

#4.  使用回归、随机森林等模型来预测缺失属性的值

# 因为年龄是一个相当重要的特征，所以要保证一定的缺失值填充准确率

age_df=df[['Age','Survived','Fare','Parch','SibSp','Pclass']]

age_df_notnull = age_df.loc[(df.Age.notnull())]

age_df_isnull = age_df.loc[(df.Age.isnull())]

X = age_df_notnull.values[:,1:]

Y = age_df_notnull.values[:,0]

# y1 = age_df_notnull.values[:,2:]

# X[:,0]是numpy中数组的一种写法表示对一个二维数组，取该二维数组第一维中的所有数据，第二维中取第0个数据，直观来说，X[:,0]就是取所有行的第0个数据, X[:,1] 就是取所有行的第1个数据

# print(X)

rfr = RandomForestRegressor(n_estimators=1000,n_jobs=-1)

rfr.fit(X,Y)

predictAges = rfr.predict(age_df_isnull.values[:,1:])

df.loc[(df.Age.isnull()),'Age'] = predictAges

print(df.describe())

Titanic缺失数值处理 & 存活率预测的更多相关文章

kaggle入门项目：Titanic存亡预测（二）数据处理
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accu ...
Kaggle入门——泰坦尼克号生还者预测
前言这个是Kaggle比赛中泰坦尼克号生存率的分析.强烈建议在做这个比赛的时候,再看一遍电源<泰坦尼克号>,可能会给你一些启发,比如妇女儿童先上船等.所以是否获救其实并非随机,而是基于一 ...
kaggle& titanic代码
这两天报名参加了阿里天池的’公交线路客流预测‘赛,就顺便先把以前看的kaggle的titanic的训练赛代码在熟悉下数据的一些处理.题目根据titanic乘客的信息来预测乘客的生还情况.给了titan ...
阿里如何实现海量数据实时分析技术－AnalyticDB
导读:随着数据量的快速增长,越来越多的企业迎来业务数据化时代,数据成为了最重要的生产资料和业务升级依据.本文由阿里AnalyticDB团队出品,近万字长文,首次深度解读阿里在海量数据实时分析领域的多项 ...
python 缺失值处理（Imputation）
一.缺失值的处理方法由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格.nans或者是其他的占位符.但是这样的数据集并不能被scikit - learn算法兼容,因为 ...
python大战机器学习——数据预处理
数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化.正则化 5)特征选择 6)主成分分析 1.去除唯一属性如id属性,是唯一属性,直接去除就好 2.处理缺失值 ( ...
PimaIndiansdiabetes-数据预处理实验（一）
有趣的事,Python永远不会缺席! 如需转发,请注明出处:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10859517.html 链接:https:// ...
[阿里DIEN] 深度兴趣进化网络源码分析之 Keras版本
[阿里DIEN] 深度兴趣进化网络源码分析之 Keras版本目录 [阿里DIEN] 深度兴趣进化网络源码分析之 Keras版本 0x00 摘要 0x01 背景 1.1 代码进化 1.2 Deep ...
Python之replace()方法失效
1.背景 Titanic存活率预测案例: # 读取数据 df_train = pd.read_csv("./data/train.csv") df_train.head() OUT ...

随机推荐

css.1
background-repeat背景平铺background-x水平平铺 background-y垂直平铺 background:url()no-repeat;不平铺 background-size ...
事件驱动模型和异步IO多路复用
事件驱动模型协程:遇到IO操作就切换. 但什么时候切回去呢?怎么确定IO操作完了? 很多程序员可能会考虑使用“线程池”或“连接池”.“线程池”旨在减少创建和销毁线程的频率,其维持一定合理数量的线程, ...
带通滤波 matlab
巴特沃斯:1.带阻滤波器设计带阻滤波器指标:阻带上边界频率:5Kz:阻带下边界频率:7Kz:通带上边界频率:2Kz:通带下边界频率:9Kz:通带最大衰减:1dB:阻带最小衰减:20dB:设计程序如下: ...
二,编程语言类别,和python变量基础
编程语言类别机器语言:由二进制组成,直接控制操作硬件,执行效率高,开发效率低. 汇编语言:用英文代替二进制,直接操作控制硬件,执行效率高,开发效率低. 高级语言: 编译型,如C语言,类似谷歌翻译,先 ...
3.oracle与mysql的区别
1．自动增长的数据类型处理 MYSQL有自动增长的数据类型,插入记录时不用操作此字段,会自动获得数据值.ORACLE没有自动增长的数据类型,需要建立一个自动增长的序列号,插入记录时要把序列号的 ...
IO流技术
IO流常用基类字节流的抽象基类:InputStream,OutputStream 字符流的抽象基类:Reader,Writer Writer类子类:BufferedWriter,CharArray ...
关于multi-index
[转载请注明出处]http://www.cnblogs.com/mashiqi 2017/02/22 将$D^{\alpha}$和$\partial^{\alpha}$区别对待.$D^{\alpha} ...
CSS精简工具——除去多余的css样式
有时候开发网页中在改版之后,存在很多无意义的样式,对于后期的管理和维护很不友好. 如果手动去删除,很可能会导致出现更混乱的问题. 最近找到一个Chrome插件,CSS remove and combi ...
lua经典问题
lua是一门比较简单的脚本语言,但是有些问题经常碰到,在这里总结一下: 1 lua 传参,如果参数是table,则相当于传引用 2 lua中只有nil和false返回假 3 lua and 和 or ...
oracle database 11g 如何正确卸载
如在使用过程中,遇到oracle database 的疑难问题,需要重装的时候,就需要我们先将老的oracle 做完全的卸载删除,这样才能安装新的oracle database. 下面看一下具体的卸载 ...

Titanic缺失数值处理 & 存活率预测

1. kaggle泰坦尼克数据titanic完整下载，原作者良心分享

2. 缺失值处理

Titanic缺失数值处理 & 存活率预测的更多相关文章

随机推荐

热门专题