# coding: utf-8

# In[19]:

# 0.78468

# In[20]:

import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
from sklearn import preprocessing # In[21]: train_path = r'C:\Users\cbattle\Desktop\train.csv' # r'/home/adminn/桌面/train.csv'
test_path = r'C:\Users\cbattle\Desktop\test.csv' # r'/home/adminn/桌面/test.csv'
out_path = r'C:\Users\cbattle\Desktop\out.csv' # r'/home/adminn/桌面/out.csv' train = pd.read_csv(train_path)
test = pd.read_csv(test_path) print('train:',train.shape)
print('test:',test.shape)
# train.info()
# test.info()
# print(train.head()) # 属性列
# print([col for col in train])
# print([col for col in test]) # 策略
# ['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
# drop onehot drop 0/1 num num num drop num 0/1 用S补空,onehot # In[22]: X = train.drop(['Survived','PassengerId','Name'], axis=1)
y = train['Survived']
Xtest = test.drop(['PassengerId','Name'], axis=1)
# print('X:',X.shape)
# print('y:',y.shape)
# print('Xtest:',Xtest.shape) # In[23]: key = [col for col in X if X[col].dtype != 'object' # numberic ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
or col == 'Sex'
or col == 'Embarked'
or col == 'Cabin'
]
X = X[key]
Xtest = Xtest[key]
# print(key) def showNullNum(a,b):
print(a.isnull().sum())
print()
print(b.isnull().sum())
print('------------------------------------') showNullNum(X,Xtest) # Xtest['Fare'][Xtest['Fare'].isnull()] = Xtest['Fare'].median() # replace nan with median
# X = X.dropna(axis=0) # drop X and y in the same row #-------------------------------------------------------------------------------
# Pclass Ticket class
# 1 = 1st, 2 = 2nd, 3 = 3rd onehot
# for i in X['Pclass'].unique():
# X['Pclass_'+str(i)] = (X['Pclass']==i).astype(int)
# Xtest['Pclass_'+str(i)] = (Xtest['Pclass']==i).astype(int) # X = X.drop(['Pclass'],axis=1)
# Xtest = Xtest.drop(['Pclass'],axis=1) #-------------------------------------------------------------------------------
# Sex
X['Sex'] = X['Sex'].apply(lambda i:1 if i=='female' else 0)
Xtest['Sex'] = Xtest['Sex'].apply(lambda i:1 if i=='female' else 0) #-------------------------------------------------------------------------------
# Embarked # 1 label encoding
X['Embarked'][X['Embarked'].isnull()] = 'S'
X['Embarked'] = X['Embarked'].map({'S':0,'C':1,'Q':2}).astype(int)
Xtest['Embarked'] = Xtest['Embarked'].map({'S':0,'C':1,'Q':2}).astype(int)
# or use sklearn.preprocessing.LabelEncoder # print(X.head())
# print(Xtest.head()) # X['Embarked'][X['Embarked'].isnull()] = 'S'
# from sklearn import preprocessing
# le = preprocessing.LabelEncoder()
# X['Embarked'] = le.fit_transform(X['Embarked'])
# Xtest['Embarked'] = le.transform(Xtest['Embarked']) # print(X.head())
# print(Xtest.head()) # 2 onehot
# for i in X['Embarked'].unique():
# print(i, 'sum:', sum(X['Embarked']==i)) # X['Embarked'][X['Embarked'].isnull()] = 'S' # most_frequent
# for i in X['Embarked'].unique():
# X['Embarked_type_'+i] = (X['Embarked']==i).astype(int)
# Xtest['Embarked_type_'+i] = (Xtest['Embarked']==i).astype(int) # X = X.drop(['Embarked'],axis=1)
# Xtest = Xtest.drop(['Embarked'],axis=1)
# print(X.head(10)) #-------------------------------------------------------------------------------
# Cabin
# has a cabin or not
# print(X.head(5))
Xtest['Cabin'] = Xtest['Cabin'].apply(lambda i:1 if isinstance(i,str) else 0)
X['Cabin'] = X['Cabin'].apply(lambda i:1 if isinstance(i,str) else 0)
# print(X.head(5)) #-------------------------------------------------------------------------------
# age and fare
# use median to replace nan
from sklearn.preprocessing import Imputer
ip = Imputer(strategy='median')
X = ip.fit_transform(X)
Xtest = ip.transform(Xtest)
print(np.isnan(X).sum(),np.isnan(Xtest).sum()) # In[24]: from xgboost import XGBClassifier
xgb = XGBClassifier()
xgb.fit(X,y)
ans = xgb.predict(Xtest) # from sklearn.tree import DecisionTreeClassifier
# from sklearn.ensemble import ExtraTreesClassifier
# from sklearn.svm import LinearSVC # In[25]: out = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':ans})
out.to_csv(out_path,index = False)
print('ok') # In[26]: from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(['a','b','c'])
ans = le.transform(['a','a','c'])
print(ans)

kaggle Titanic的更多相关文章

  1. kaggle& titanic代码

    这两天报名参加了阿里天池的’公交线路客流预测‘赛,就顺便先把以前看的kaggle的titanic的训练赛代码在熟悉下数据的一些处理.题目根据titanic乘客的信息来预测乘客的生还情况.给了titan ...

  2. kaggle Titanic心得

    Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难.目前抽工作之余,断断续续弄了点,成绩为0.79426.在这个比赛过程中,接 ...

  3. Kaggle:Titanic: Machine Learning from Disaster

    一直想着抓取股票的变化,偶然的机会在看股票数据抓取的博客看到了kaggle,然后看了看里面的题,感觉挺新颖的,就试了试. 题目如图:给了一个train.csv,现在预测test.csv里面的Passa ...

  4. Kaggle Titanic补充篇

    1.关于年龄Age 除了利用平均数来填充,还可以利用正态分布得到一些随机数来填充,首先得到已知年龄的平均数mean和方差std,然后生成[ mean-std,  mean+std ]之间的随机数,然后 ...

  5. Kaggle Titanic solution 纯规则学习

    其实就是把train.csv拿出来看了看,找了找规律,调了调参数而已. 找到如下规律: 1.男的容易死,女的容易活 2.一等舱活,三等舱死 3.老人死,小孩活 4.兄弟姐妹多者死 5.票价高的活 6. ...

  6. 逻辑回归应用之Kaggle泰坦尼克之灾(转)

    正文:14pt 代码:15px 1 初探数据 先看看我们的数据,长什么样吧.在Data下我们train.csv和test.csv两个文件,分别存着官方给的训练和测试数据. import pandas ...

  7. Kaggle 泰坦尼克

    入门kaggle,开始机器学习应用之旅. 参看一些入门的博客,感觉pandas,sklearn需要熟练掌握,同时也学到了一些很有用的tricks,包括数据分析和机器学习的知识点.下面记录一些有趣的数据 ...

  8. Survival on the Titanic (泰坦尼克号生存预测)

    >> Score 最近用随机森林玩了 Kaggle 的泰坦尼克号项目,顺便记录一下. Kaggle - Titanic: Machine Learning from Disaster On ...

  9. 机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster

     下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模 ...

随机推荐

  1. UVA 11176 Winning Streak

    #include <iostream> #include <stdio.h> #include <cstring> #define N 501 using name ...

  2. Tomcat的安装与环境配置

    首先,下载地址为:http://tomcat.apache.org/,在左侧的列表中找到Download,找到自己要下载的Tomcat的版本.我下载的是Tomcat 7. 进入后出现如上右图界面.我选 ...

  3. 使用window.print()后,未关闭打印页面,原网页不能操作

    使用window.print()后,未关闭打印页面,原网页不能操作,此时可以试着用window.location.reload()重新加载页面解决问题.

  4. c#多线程实现定时执行代码与lock锁操作

    总结以下三种方法,实现c#每隔一段时间执行代码: 方法一:调用线程执行方法,在方法中实现死循环,每个循环Sleep设定时间: 方法二:使用System.Timers.Timer类: 方法三:使用Sys ...

  5. C# Message 消息处理

    一.消息概述 Windows下应用程序的执行是通过消息驱动的.消息是整个应用程序的工作引擎,我们需要理解掌握我们使用的编程语言是如何封装消息的原理.C#自定义消息通信往往采用事件驱动的方式实现,但有时 ...

  6. MySQL 预处理语句prepare、execute、deallocate的使用

    所以对于中文乱码,需要去check的地方有如下3个:1.mysql窗口的字符编码(xshell连接的远程工具的字符集设置):2.数据库的字符编码(show variables like '%char% ...

  7. HDU4006(小根堆)

    The kth great number Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65768/65768 K (Java/Oth ...

  8. Java基础--HashCode

    如果一个类的对象要用做hashMap的key,那么一定要注意覆盖该类的equals和hashCode方法. equals()是基类Object的方法,用于判断对象是否有相同地址及是否为同一对象 pub ...

  9. FlatBuffers使用简介

    @[tools|flatbuffers|opensource] 概述### Google在今年6月份发布了跨平台序列化工具FlatBuffers,提供了C++/Java/Go/C#接口支持,这是一个注 ...

  10. myelipse中部署路径deploy location出现错误

    背景: 因java_web项目中的所有代码以及资源文件突然无法提交,在尝试过诸多方法无果后,果断删除项目重新将down下来.启动Tomcat无问题,使用原来的访问连接报错.经检查发现加载至Tomcat ...