kaggle入门随机森林求解Titanic

# kaggle Titanic

# 导入需要的库

import pandas as pd

import numpy as np

import sys

import sklearn

import random

import time

from sklearn import ensemble

from sklearn.preprocessing import LabelEncoder

from sklearn import feature_selection

from sklearn import model_selection

from sklearn import metrics

import matplotlib as mpl

import matplotlib.pyplot as plt

import seaborn as sns

# 开始数据分析

data_train = pd.read_csv('data/train.csv')

data_test = pd.read_csv('data/test.csv')

data_all = [data_train, data_test]

# 测试一下

# print(data_all)

# 将数据集列名都换成小写字母

for data in data_all:

    data.columns = data.columns.str.lower()

# 测试一下

# print(data_all)

# 进行数据清洗

# print(data_all[0].isnull().sum())  # 看出age有177空缺 cabin有687空缺 embarked有2空缺

# print(data_all[1].isnull().sum())

# 针对空缺进行补足或删除属性

for data in data_all:

    data['age'].fillna(data['age'].median(), inplace=True)

    data['fare'].fillna(data['fare'].median(), inplace=True)

    data['embarked'].fillna(data['embarked'].mode()[0], inplace=True)  # mode按出现频率顺序返回取值

drop_columns = ['cabin', 'passengerid', 'ticket']

for data in data_all:

    data.drop(drop_columns, axis=1, inplace=True)

# 测一下试

# print(data_train.isnull().sum())

for data in data_all:

    data['family_size'] = data['sibsp'] + data['parch'] + 1

    data['single'] = 1

    data['single'].loc[data['family_size'] > 1] = 0

    data['title'] = data['name'].apply(lambda x: x.split(', ')[1]).apply(lambda x:

                                                                         x.split('.')[0])

    data['fare_bin'] = pd.cut(data['fare'], 4)

    data['age_bin'] = pd.cut(data['age'], 5)

# 测试一下

# data_train.to_csv('data/my_train.csv')

# data_test.to_csv('data/my_test.csv')

data_train['title'] = data_train['title'].apply(lambda x: 'other' if data_train['title'].value_counts()[x] < 10 else x)

data_test['title'] = data_test['title'].apply(lambda x: 'other' if data_test['title'].value_counts()[x] < 10 else x)

# 测试一下

# print(data_train['title'].value_counts())

label = LabelEncoder()

for data in data_all:

    data['sex_code'] = label.fit_transform(data['sex'])

    data['embarked_code'] = label.fit_transform(data['embarked'])

    data['title_code'] = label.fit_transform(data['title'])

    data['age_bin_code'] = label.fit_transform(data['age_bin'])

    data['fare_bin_code'] = label.fit_transform(data['fare_bin'])

target = ['survived']

features = ['pclass', 'family_size', 'single', 'sex_code', 'embarked_code',

            'title_code', 'age_bin_code', 'fare_bin_code']

features_all = target + features

data_dummy = pd.get_dummies(data_train[features])

# data_dummy.to_csv('data/dummy.csv')

# print(data_dummy)

# 获取训练集合测试集

x_train, x_test, y_train, y_test = model_selection.train_test_split(data_dummy[features],

                                                                    data_train[target],

                                                                    random_state=0)

from sklearn.model_selection import GridSearchCV

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(max_features='auto',

                            random_state=1,

                            n_jobs=-1)  # 最大特征数：自动适应； 结果对照组 1； 是否多线程训练 -1 是

param_gird = {

    'criterion': ['gini', 'entropy'],  # 基尼系数 信息熵,自动对比两个参数的效果挑选最好的

    'min_samples_leaf': [1, 5, 10],  # 最小的叶子节点保留数

    'min_samples_split': [2, 4, 10, 16],  # 最小分几类

    'n_estimators': [50, 100, 400, 700, 1000]

}  # 网格搜索，自动搜索参数中的各种可能挑选效果最好的

# 创建一个网格搜索对象

gs = GridSearchCV(estimator=rf,  # 传入随机森林对象

                  param_grid=param_gird,  # 各种参数

                  scoring='accuracy',  # 评判标准：准确度

                  cv=3,  # 交叉验证

                  n_jobs=-1  # 线程数

                  )

gs = gs.fit(x_train, np.ravel(y_train))

print(gs.best_score_)

print(gs.best_params_)

rf2 = RandomForestClassifier(criterion='entropy',

                             min_samples_leaf=5,

                             min_samples_split=16,

                             n_estimators=50,

                             n_jobs=-1,

                             random_state=1)

rf2.fit(x_train, np.ravel(y_train))

pred = rf2.predict(x_test)

pred_df = pd.DataFrame(pred, columns=['survived'])

pred_df.to_csv('data/pred_df.csv')

kaggle入门随机森林求解Titanic的更多相关文章

机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数 ...
机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响第一方面:特征不变,只增加样本的数据第二方面:增加特征数,增加样 ...
机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) ...
kaggle数据挖掘竞赛初步--Titanic<随机森林&特征重要性>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ...
kaggle入门项目：Titanic存亡预测（四）模型拟合
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accu ...
kaggle入门项目：Titanic存亡预测（一）比赛简介
自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之 ...
kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3 or 1:1）效果比较好！记得在smote前一定要先做标准化！！！其实随机森林对特征是否标准化无感，但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...
web安全之机器学习入门——3.2 决策树与随机森林
目录简介决策树简单用法决策树检测P0P3爆破决策树检测FTP爆破随机森林检测FTP爆破简介决策树和随机森林算法是最常见的分类算法: 决策树,判断的逻辑很多时候和人的思维非常接近. 随机森 ...
kaggle入门——泰坦尼克之灾
目录引言数据认识总结特征处理建模预测 logistic分类模型随机森林 SVM xgboost 模型验证交叉验证学习曲线高偏差: 高方差模型融合总结后记引言一直久闻kagg ...
kaggle入门2——改进特征
1:改进我们的特征在上一个任务中,我们完成了我们在Kaggle上一个机器学习比赛的第一个比赛提交泰坦尼克号:灾难中的机器学习. 可是我们提交的分数并不是非常高.有三种主要的方法可以让我们能够提高他: ...

随机推荐

数据分析应该掌握的知识及SQL技能
一.概念及常识 1.数据分析必备的统计学知识描述统计学 1.平均值.中位数.众数 2.方差.标准差 3.统计分布:正态分布.指数分布.二项分布.卡方分布推论统计学 1.假设检验 2.置信区间 3. ...
Django model 层之聚合查询总结
Django model 层之聚合查询总结 by:授客 QQ:1033553122 实践环境 Python版本:python-3.4.0.amd64 下载地址:https://www.python.o ...
彻底搞懂python super函数的作用
super() 的入门使用在类的继承中,如果重定义某个方法,该方法会覆盖父类的同名方法,但有时,我们希望能同时实现父类的功能,这时,我们就需要调用父类的方法了. 调用父类同名方法有两种方式: 1.调 ...
新项目加入mybatisplus，我给自己挖了个坑 org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)
org.apache.ibatis.binding.BindingException: Invalid bound statement (not found) 上述问题的解决办法:1首先看看@mapp ...
Jmeter函数助手28-urldecode
urldecode函数用于解码application/x-www-form-urlencoded字符串. String to encode in URL encoded chars:填入applica ...
python高性能计算：cython使用openmp并行 —— 报错：undefined symbol: omp_get_thread_num
test.pyx文件: from cython.parallel cimport parallel from openmp cimport omp_get_thread_num cpdef void ...
pycuda学习过程中的一些发现，cuda函数的初始化要在cuda内存空间初始化之后，否则会报错
参考: https://www.cnblogs.com/devilmaycry812839668/p/15348610.html 最近在看WarpDrive的代码,其中cuda上运行的代码是使用pyc ...
WPF Button自定义样式收集带有图片的Button
此篇只是收集平时写过的样式~ 带有图片的Button 为Button设定了一些附加属性,用于添加图片到Button. 比如初始化图片和点击后的图片 public static readonly Dep ...
Spring Boot Admin对Springboot服务进行监控
1.背景大纲 Spring Boot Admin 是一个管理和监控Spring Boot 应用程序的开源软件.每个应用都认为是一个客户端,通过HTTP或者使用 Eureka注册到admin serv ...
SonarQube集成Xunit单元测试
安装SonarQube 利用docker 安装SonarQube docker run -d --name sonarqube -e SONAR_ES_BOOTSTRAP_CHECKS_DISABLE ...

kaggle入门 随机森林求解Titanic

kaggle入门 随机森林求解Titanic的更多相关文章

随机推荐

热门专题

kaggle入门随机森林求解Titanic

kaggle入门随机森林求解Titanic的更多相关文章