kaggle PredictingRedHatBusinessValue 简单的xgboost的交叉验证

PredictingRedHatBusinessValue 这个超级简单的比赛

随手在一个kernels上面随便改了改，交叉验证的xgboost：

感觉还是稍微有一点借鉴意义的（x

注释的部分是OneHot+线性模型的结果，非注释的就是随机森林。

线性模型跑的比随即森林的结果好很多，至于为什么，我也不知道。

import numpy as np

import pandas as pd

import xgboost as xgb

from sklearn.preprocessing import OneHotEncoder

def reduce_dimen(dataset,column,toreplace):

    for index,i in dataset[column].duplicated(keep=False).iteritems():

        if i==False:

            dataset.set_value(index,column,toreplace)

    return dataset

def act_data_treatment(dsname):

    dataset = dsname

    for col in list(dataset.columns):

        if col not in ['people_id', 'activity_id', 'date', 'char_38', 'outcome']:

            if dataset[col].dtype == 'object':

                dataset[col].fillna('type 0', inplace=True)

                dataset[col] = dataset[col].apply(lambda x: x.split(' ')[1]).astype(np.int32)

            elif dataset[col].dtype == 'bool':

                dataset[col] = dataset[col].astype(np.int8)

    dataset['year'] = dataset['date'].dt.year

    dataset['month'] = dataset['date'].dt.month

    dataset['day'] = dataset['date'].dt.day

    dataset['isweekend'] = (dataset['date'].dt.weekday >= 5).astype(int)

    dataset = dataset.drop('date', axis = 1)

    return dataset

act_train_data = pd.read_csv("D://kaggle//PredictingRedHatBusinessValue//data//act_train.csv",dtype={'people_id': np.str, 'activity_id': np.str, 'outcome': np.int8}, parse_dates=['date'])

act_test_data  = pd.read_csv("D://kaggle//PredictingRedHatBusinessValue//data//act_test.csv", dtype={'people_id': np.str, 'activity_id': np.str}, parse_dates=['date'])

people_data    = pd.read_csv("D://kaggle//PredictingRedHatBusinessValue//data//people.csv", dtype={'people_id': np.str, 'activity_id': np.str, 'char_38': np.int32}, parse_dates=['date'])

act_train_data=act_train_data.drop('char_10',axis=1)

act_test_data=act_test_data.drop('char_10',axis=1)

print("Train data shape: " + format(act_train_data.shape))

print("Test data shape: " + format(act_test_data.shape))

print("People data shape: " + format(people_data.shape))

act_train_data  = act_data_treatment(act_train_data)

act_test_data   = act_data_treatment(act_test_data)

people_data = act_data_treatment(people_data)

train = act_train_data.merge(people_data, on='people_id', how='left', left_index=True)

test  = act_test_data.merge(people_data, on='people_id', how='left', left_index=True)

del act_train_data

del act_test_data

del people_data

train=train.sort_values(['people_id'], ascending=[1])

test=test.sort_values(['people_id'], ascending=[1])

train_columns = train.columns.values

test_columns = test.columns.values

features = list(set(train_columns) & set(test_columns))

train.fillna('NA', inplace=True)

test.fillna('NA', inplace=True)

y = train.outcome

train=train.drop('outcome',axis=1)

whole=pd.concat([train,test],ignore_index=True)

categorical=['group_1','activity_category','char_1_x','char_2_x','char_3_x','char_4_x','char_5_x','char_6_x','char_7_x','char_8_x','char_9_x','char_2_y','char_3_y','char_4_y','char_5_y','char_6_y','char_7_y','char_8_y','char_9_y']

for category in categorical:

    whole=reduce_dimen(whole,category,9999999)

Len = int(0.3*len(train))

X_train=whole[:Len]

Y_train=y[:Len]

X=whole[:len(train)]

Y=y[:len(train)]

X_test=whole[len(train):]

del train

del whole

X=X.sort_values(['people_id'], ascending=[1])

X_train = X_train.sort_values(['people_id'], ascending=[1])

X_train = X_train[features].drop(['people_id', 'activity_id'], axis = 1)

X = X[features].drop(['people_id', 'activity_id'], axis = 1)

X_test = X_test[features].drop(['people_id', 'activity_id'], axis = 1)

categorical=['group_1','activity_category','char_1_x','char_2_x','char_3_x','char_4_x','char_5_x','char_6_x','char_7_x','char_8_x','char_9_x','char_2_y','char_3_y','char_4_y','char_5_y','char_6_y','char_7_y','char_8_y','char_9_y']

not_categorical=[]

for category in X.columns:

    if category not in categorical:

        not_categorical.append(category)

# enc = OneHotEncoder(handle_unknown='ignore')

# enc=enc.fit(pd.concat([X[categorical],X_test[categorical]]))

# X_cat_sparse=enc.transform(X[categorical])

# X_test_cat_sparse=enc.transform(X_test[categorical])

# from scipy.sparse import hstack

# X_sparse=hstack((X[not_categorical], X_cat_sparse))

# X_test_sparse=hstack((X_test[not_categorical], X_test_cat_sparse))

# print("Training data: " + format(X_sparse.shape))

# print("Test data: " + format(X_test_sparse.shape))

# print("###########")

# print("One Hot enconded Test Dataset Script")

# dtrain = xgb.DMatrix(X_sparse,label=y)

# dtest = xgb.DMatrix(X_test_sparse)

# param = {'max_depth':10, 'eta':0.02, 'silent':1, 'objective':'binary:logistic' }

# param['nthread'] = 4

# param['eval_metric'] = 'auc'

# param['subsample'] = 0.7

# param['colsample_bytree']= 0.7

# param['min_child_weight'] = 0

# param['booster'] = "gblinear"

# watchlist  = [(dtrain,'train')]

# num_round = 300

# early_stopping_rounds=10

# bst = xgb.train(param, dtrain, num_round, watchlist,early_stopping_rounds=early_stopping_rounds)

dtrain2 = xgb.DMatrix(X_train,label=Y_train)

dtrain = xgb.DMatrix(X,label=Y)

dtest = xgb.DMatrix(X_test)

eta = 0.9

max_depth = 5

subsample = 0.8

colsample_bytree = 0.8

print('XGBoost params. ETA: {}, MAX_DEPTH: {}, SUBSAMPLE: {}, COLSAMPLE_BY_TREE: {}'.format(eta, max_depth, subsample, colsample_bytree))

params = {

    "objective": "binary:logistic",

    "booster" : "gbtree",

    "eval_metric": "auc",

    "eta": eta,

    "max_depth": max_depth,

    "subsample": subsample,

    "colsample_bytree": colsample_bytree,

    "silent": 1,

    "seed": 19960429

}

watchlist  = [(dtrain,'train'),(dtrain2,'val')]

num_round = 300

early_stopping_rounds=10

bst = xgb.train(params, dtrain, num_round, watchlist,early_stopping_rounds=early_stopping_rounds)

ypred = bst.predict(dtest)

output = pd.DataFrame({ 'activity_id' : test['activity_id'], 'outcome': ypred })

output.head()

output.to_csv('D://kaggle//PredictingRedHatBusinessValue//data//without_leak.csv', index = False)

kaggle PredictingRedHatBusinessValue 简单的xgboost的交叉验证的更多相关文章

小白学习之pytorch框架(7)之实战Kaggle比赛：房价预测(K折交叉验证、*args、**kwargs)
本篇博客代码来自于<动手学深度学习>pytorch版,也是代码较多,解释较少的一篇.不过好多方法在我以前的博客都有提,所以这次没提.还有一个原因是,这篇博客的代码,只要好好看看肯定能看懂( ...
MATLAB曲面插值及交叉验证
在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点.插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值.曲面插值是对三维数据进行离 ...
交叉验证(Cross Validation)原理小结
交叉验证是在机器学习建立模型和验证模型参数时常用的办法.交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏. ...
交叉验证 Cross validation
来源:CSDN: boat_lee 简单交叉验证 hold-out cross validation 从全部训练数据S中随机选择s个样例作为训练集training set,剩余的作为测试集testin ...
paper 35 ：交叉验证(CrossValidation)方法思想
交叉验证(CrossValidation)方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(da ...
交叉验证（cross validation）
转自:http://www.vanjor.org/blog/2010/10/cross-validation/ 交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据 ...
如何调用sklearn模块做交叉验证
终于搞明白了如何用sklearn做交叉验证!!! 一般在建立完模型之后,我们要预测模型的好坏,为了试验的可靠性(排除一次测试的偶然性)我们要进行多次测试验证,这时就要用交叉验证. sklearn中的s ...
交叉验证(CrossValidation)方法
分类器模型通常在特定的数据上进行训练,由于所得模型可能存在过拟合的现象.因此,模型训练完成之后通常需要进行检验,以验证分类模型在未知数据集上的预测能力,即我们通常所说的"模型泛化" ...
机器学习——交叉验证，GridSearchCV，岭回归
0.交叉验证交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set) ...

随机推荐

C++经典面试题（最全，面中率最高）
C++经典面试题(最全,面中率最高) 1.new.delete.malloc.free关系 delete会调用对象的析构函数,和new对应free只会释放内存,new调用构造函数.malloc与fre ...
url传参中文乱码解决
url传参request.setCharacterEncoding("utf-8");无法解决中文乱码问题解决方法: 修改tomcat---conf----server.xml文 ...
opencv error: insufficient memory错误解决办法
用opencv合成图像时出现的错误,大概4000多张会报错,在网上查阅一些博客时才知道原因.之前编译的时候用的是x86,切换到x64下可解决问题,具体: 1.项目->属性->配置管理器-& ...
Albert Einstein
Einstein always appeared to have a clear view of the problems of physics and the determination to so ...
C#泛型（一）
简介: 先看看泛型的概念--“通过参数化类型来实现在同一份代码上操作多种数据类型.利用“参数化类型”将类型抽象化,从而实现灵活的复用”. 很多初学者在刚开始接触泛型的时候会比较难理解 “泛型” 在这里 ...
JQuery+Ajax实战三级下拉列表联动（八）
本片文章为练习,项目中不会这样写: 一:涉及到的知识点: jQuery Dom操作 jQuery Ajax操作 ASP.net中的json操作二:用了自动代码生成器 1.Dal层的代码: publi ...
struts2使用拦截器完成登陆显示用户信息操作和Struts2的国际化
其实学习框架,就是为了可以很好的很快的完成我们的需求,而学习struts2只是为了替代之前用的servlet这一层,框架使开发更加简单,所以作为一个小菜鸟,特别感谢那些超级无敌变态开发的框架供我们使用 ...
跨域资源共享CORS
CORS是一个W3C标准,全称是"跨域资源共享"(Cross-origin resource sharing).它允许浏览器向跨源服务器,发出XMLHttpRequest请求,从而 ...
[NOI2012]随机数生成器
题解: 很显然是一道矩阵优化dp 然而表示我很智障地把式子一个个带入然后就发现了为什么会有那些部分分(大概用扩欧是70吧) 注意用矩阵计算的时候要用快速乘(当然想写高精那也随便,时间无限宽裕) 代码 ...
java实现判断一个经纬度坐标是否在一个多边形内（经自己亲测）
1.在高德地图上绘制的多边形:经纬度逗号分隔格式:上面是用来方便存坐标的对象:下面是方法测试:直接复制代码即可运行 public class Point { private Double x; pri ...

kaggle PredictingRedHatBusinessValue 简单的xgboost的交叉验证

kaggle PredictingRedHatBusinessValue 简单的xgboost的交叉验证的更多相关文章

随机推荐

热门专题