Kaggle初体验之泰坦尼特生存预测
Kaggle初体验之泰坦尼特生存预测
学习完了决策树的ID3、C4.5、CART算法,找一个试手的地方,Kaggle的练习赛泰坦尼特很不错,记录下
流程
首先注册一个账号,然后在顶部菜单栏Competitions里面搜索Titanic,找到Titanic练习赛,练习赛就用用于帮助新手入门的,在比赛的页面有很多的入门推荐,很值得去一看。
- 获取数据集
- 探索数据集
- 清洗数据集
- 特征选择
- 训练数据集
- 预测数据集
- 提交结果文件
获取数据集
数据集在比赛面板菜单栏的Data里面,有三个数据集
- train.csv:训练数据集
- test.csv:需要预测结果的数据集
- gender_submission.csv:预测结果提交模板(直接提交这个都能达到77%的准确率,而自己写的Python调用机器学习算法的才75%,有意思)
探索数据集
拿到数据集以后我们需要看看里面是写什么内容,数据完整不完整之类的。在网站上对数据列的说明如下:
- PassengerId:乘客编号
- Survived:是否幸存
- Pclass:船票等级
- Name:乘客姓名
- Sex:乘客性别
- SibSp:亲戚数量(兄妹、配偶数)
- Parch:亲戚数量(父母、子女数)
- Ticket:船票号码
- Fare:船票价格
- Cabin:船舱
- Embarked:登录港口
使用的Python代码如下:
import pandas as pd
train_data = pd.read_csv("../docs/train.csv")
test_data = pd.read_csv("../docs/test.csv")
# 了解数据表的基本情况:行数、列数、每列的数据类型、数据完整度;
print(train_data.info())
print("_"*30)
# 了解数据表的统计情况:总数、平均值、标准差、最小值、最大值
print(train_data.describe())
print("_"*30)
# 查看字符串类型(非数字)的整体情况
print(train_data.describe(include=['O']))
print("_"*30)
# 查看前五行数据
print(train_data.head())
print("_"*30)
# 查看后五行数据
print(train_data.tail())
print("_"*30)
运行结果大致如下:
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB
None
______________________________
PassengerId Survived Pclass ... SibSp Parch Fare
count 891.000000 891.000000 891.000000 ... 891.000000 891.000000 891.000000
mean 446.000000 0.383838 2.308642 ... 0.523008 0.381594 32.204208
std 257.353842 0.486592 0.836071 ... 1.102743 0.806057 49.693429
min 1.000000 0.000000 1.000000 ... 0.000000 0.000000 0.000000
25% 223.500000 0.000000 2.000000 ... 0.000000 0.000000 7.910400
50% 446.000000 0.000000 3.000000 ... 0.000000 0.000000 14.454200
75% 668.500000 1.000000 3.000000 ... 1.000000 0.000000 31.000000
max 891.000000 1.000000 3.000000 ... 8.000000 6.000000 512.329200
[8 rows x 7 columns]
______________________________
Name Sex Ticket Cabin Embarked
count 891 891 891 204 889
unique 891 2 681 147 3
top Allen, Mr. William Henry male 347082 B96 B98 S
freq 1 577 7 4 644
______________________________
PassengerId Survived Pclass ... Fare Cabin Embarked
0 1 0 3 ... 7.2500 NaN S
1 2 1 1 ... 71.2833 C85 C
2 3 1 3 ... 7.9250 NaN S
3 4 1 1 ... 53.1000 C123 S
4 5 0 3 ... 8.0500 NaN S
[5 rows x 12 columns]
______________________________
PassengerId Survived Pclass ... Fare Cabin Embarked
886 887 0 2 ... 13.00 NaN S
887 888 1 1 ... 30.00 B42 S
888 889 0 3 ... 23.45 NaN S
889 890 1 1 ... 30.00 C148 C
890 891 0 3 ... 7.75 NaN Q
[5 rows x 12 columns]
清洗数据集
通过探索发现Age、Fare和Cabin这三个数据有所缺失,Age和Fare都为数值型,简单的使用平均数进行补齐,Cabin为字符串型,其中S最多,简单将缺失的填为S吧
train_data["Age"].fillna(train_data["Age"].mean(), inplace=True)
test_data["Age"].fillna(test_data["Age"].mean(), inplace=True)
train_data["Fare"].fillna(train_data["Fare"].mean(), inplace=True)
test_data["Fare"].fillna(test_data["Fare"].mean(), inplace=True)
train_data["Embarked"].fillna("S", inplace=True)
test_data["Embarked"].fillna("S", inplace=True)
特征选择
通过数据探索,PassengerId为乘客编号,对分类没用,Name为乘客姓名,也没用;Cabin字段缺失值太多,暂时放弃;Ticket为船票号码,杂乱无章且无规律,放弃;剩下的字段就是:Plass、Sex、Age、SibSp、Parch、Fare、Embarked,接下来就将这些特征作为训练数据,并将数据中的符号化对象转换成数字对象进行表示。
from sklearn.feature_extraction import DictVectorizer
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
dvec=DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
训练数据集
使用Python的机器学习库中决策树训练一个模型,
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(criterion="entropy")
clf.fit(train_features, train_labels)
预测数据集
对测试数据集里面的数据进行测试,并将结果输出到csv文件中,用于Kaggle的提交
test_features = dvec.transform(test_features.to_dict(orient="record"))
pred_labels = clf.predict(test_features)
print(test_features)
print(pred_labels)
print("_"*30)
with open("submission.csv", encoding="utf-8", mode="w", newline="") as f:
write = csv.writer(f, delimiter=",", quotechar='"', quoting=csv.QUOTE_MINIMAL)
write.writerow(["PassengerId", "Survived"])
count = 0
for item in test_data.values:
print(item[0])
write.writerow([item[0], pred_labels[count]])
count = count + 1
可以做一些验证,前者是简单的使用训练数据进行验证,后者是K折交叉验证
import numpy as np
from sklearn.model_selection import cross_val_score
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(acc_decision_tree)
print("_"*30)
print(np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
提交结果文件
点击Kaggle泰坦尼特比赛页面的Submit Predictions,提交上一步生成的结果文件submission.csv,比赛名次在1万多名左右,嘿嘿,名次不是关键,这次的尝试还是有点意思,简单了解了整个预测过程和Kaggle的流程。
后面自己进行的一些尝试
- Age和Fare改用中位数补全:没有平均数好,预测才69%,平均数是73%
参考链接
- Reading and Writing CSV Files in Python
- python3 writerow CSV文件多一个空行
- 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾
- Kaggle入门,看这一篇就够了
- Titanic: Machine Learning from Disaster
Kaggle初体验之泰坦尼特生存预测的更多相关文章
- 利用python进行泰坦尼克生存预测——数据探索分析
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每 ...
- pytorch kaggle 泰坦尼克生存预测
也不知道对不对,就凭着自己的思路写了一个 数据集:https://www.kaggle.com/c/titanic/data import torch import torch.nn as nn im ...
- OPhone SDK初体验
OPhone SDK初体验 write by 九天雁翎(JTianLing) -- blog.csdn.net/vagrxie 讨论新闻组及文件 背景说明 中国伟大的垄断龙头,世界上也是顶尖的中移动最 ...
- junit4初体验
OK,现在我们正式开始junit4系列的整理.前面的junit38作为4的补充知道就好了,实际编码中我们以4为主.这里先来一把junit的初体验,同时也让我们来一步一步的了解下TDD的好处. ORM大 ...
- Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
- (转载)Kaggle_Titanic生存预测 -- 详细流程吐血梳理
Kaggle_Titanic生存预测 -- 详细流程吐血梳理 https://blog.csdn.net/Koala_Tree/article/details/78725881 Kaggle中Tita ...
- pytorch入门2.2构建回归模型初体验(开始训练)
pytorch入门2.x构建回归模型系列: pytorch入门2.0构建回归模型初体验(数据生成) pytorch入门2.1构建回归模型初体验(模型构建) pytorch入门2.2构建回归模型初体验( ...
- MindSpore手写数字识别初体验,深度学习也没那么神秘嘛
摘要:想了解深度学习却又无从下手,不如从手写数字识别模型训练开始吧! 深度学习作为机器学习分支之一,应用日益广泛.语音识别.自动机器翻译.即时视觉翻译.刷脸支付.人脸考勤--不知不觉,深度学习已经渗入 ...
- 数据分析实际案例之:pandas在泰坦尼特号乘客数据中的使用
目录 简介 泰坦尼特号乘客数据 使用pandas对数据进行分析 引入依赖包 读取和分析数据 图形化表示和矩阵转换 简介 1912年4月15日,号称永不沉没的泰坦尼克号因为和冰山相撞沉没了.因为没有足够 ...
随机推荐
- C# 通过物理路径将文件以二进制保存到指定文件夹
/// <summary> /// 通过物理路径将文件以二进制保存到指定文件夹 /// </summary> /// <param name="filePath ...
- 【2-sat】8.14B. 黑心老板
2-sat 只写过板子 题目大意 有一个长度为$k$取值只有01的序列,现在$n$个人每人下注三个位置,请构造一个序列使每个人最多猜对一个位置 $k\le 5000,n \le 10000$ 题目分析 ...
- QT 设置应用程序图标和可执行程序图标
1, 首先准备个ICO图标.例如:myappico.ico 在工程目录下新建images文件夹并你的图标myappico.ico(只能用ico格式的图片)放到工程目录下的images文件夹下 2, 用 ...
- java中commons-beanutils的介绍(转)
1. 概述 commons-beanutil开源库是apache组织的一个基础的开源库.为apache中很多类提供工具方法.学习它是学习其它开源库实现的基础. Commons-beanutil中包 ...
- Spring基础(一)------装配Bean
一.Spring配置的可选方案 三种主要的装配机制: 在xml文件中进行显示配置: 在java中进行显示配置: 隐式的bean发现机制和自动装配. 使用建议:尽可能使用自动配置的机制,显示配置越少越好 ...
- MySQL Workbench 导入导出乱码解决方法
1.点击导出 2.默认选择cvs 3.打开后发现乱码 4.用记事本的方式打开会发现编码正常 5.文件->另存为,会发现编码为UTF-8,正是MySQL表的编码方式.我们选择编码方式为ANSI,保 ...
- Laravel 多态关联中利用关联表相关字段进行排序的问题
1 目标 1.1 在 Laravel 项目的开发中,多态的需求很常见,按多态关联进行排序的需求也是必须的. 1.2 请想像,我们有一个需求,荣誉栏目多态关联一个档案模型,要求在荣誉中按档案的推荐时间进 ...
- java+http文件夹上传
在web项目中上传文件夹现在已经成为了一个主流的需求.在OA,或者企业ERP系统中都有类似的需求.上传文件夹并且保留层级结构能够对用户行成很好的引导,用户使用起来也更方便.能够提供更高级的应用支撑. ...
- Crash的数字表格 / JZPTAB
https://www.cnblogs.com/peng-ym/p/8666124.html #include<bits/stdc++.h> #define LL long long #d ...
- js实现OSS上传图片,STS临时授权访问OSS
1. 引入aliyun-oss-sdk.min.js <script type="text/javascript" src="/static/js/common/a ...