kaggle预测房价的代码步骤

# -*- coding: utf-8 -*-

"""

Created on Sat Oct 20 14:03:05 2018

@author: 12958

"""

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

# 忽略警告

import warnings

warnings.filterwarnings('ignore')

# 读取训练集和测试集

train = pd.read_csv('train.csv')

train_len = len(train)

test = pd.read_csv('test.csv')

#print(train.head())

#print(test.head())

# 查看训练集的房价分布，左图是原始房价分布，右图是将房价对数化之后的分布

all_data = pd.concat([train, test], axis = 0, ignore_index= True)

all_data.drop(labels = ["SalePrice"],axis = 1, inplace = True)

fig = plt.figure(figsize=(12,5))

ax1 = fig.add_subplot(121)

ax2 = fig.add_subplot(122)

g1 = sns.distplot(train['SalePrice'],hist = True,label='skewness:{:.2f}'.format(train['SalePrice'].skew()),ax = ax1)

g1.legend()

g1.set(xlabel = 'Price')

g2 = sns.distplot(np.log1p(train['SalePrice']),hist = True,label='skewness:{:.2f}'.format(np.log1p(train['SalePrice']).skew()),ax=ax2)

g2.legend()

g2.set(xlabel = 'log(Price+1)')

plt.show()

# 由于房价是有偏度的,将房价对数化

train['SalePrice'] = np.log1p(train['SalePrice'])

# 将有偏的数值特征对数化

num_features_list = list(all_data.dtypes[all_data.dtypes != "object"].index)

for i in num_features_list:

    if all_data[i].dropna().skew() > 0.75:

        all_data[i] = np.log1p(all_data[i])

# 将类别数值转化为虚拟变量

all_data = pd.get_dummies(all_data)

# 查看缺失值

print(all_data.isnull().sum())

# 将缺失值用该列的均值填充

all_data = all_data.fillna(all_data.mean())

# 将测试集和训练集分开

X_train = all_data[:train_len]

X_test = all_data[train_len:]

Y_train = train['SalePrice']

from sklearn.linear_model import Ridge, LassoCV

from sklearn.model_selection import cross_val_score

# 定义交叉验证,用均方根误差来评价模型的拟合程度

def rmse_cv(model):

    rmse = np.sqrt(-cross_val_score(model, X_train, Y_train, scoring = 'neg_mean_squared_error', cv=5))

    return rmse

# Ridge模型

model_ridge = Ridge()

alphas = [0.05, 0.1, 0.3, 1, 3, 5, 10, 15, 30, 50, 75]

cv_ridge = [rmse_cv(Ridge(alpha = a)).mean() for a in alphas]

cv_ridge = pd.Series(cv_ridge, index = alphas)

cv_ridge

# 交叉验证可视化

fig = plt.figure(figsize=(8,5))

cv_ridge.plot(title = 'Cross Validation Score with Model Ridge')

plt.xlabel("alpha")

plt.ylabel("rmse")

plt.show()

# 当alpha为10时,均方根误差最小

cv_ridge.min()

# lasso模型,均方根误差的均值更小,因此最终选择lasso模型

model_lasso = LassoCV(alphas = [1, 0.1, 0.001, 0.0005]).fit(X_train, Y_train)

rmse_cv(model_lasso).mean()

# 查看模型系数, lasso模型能选择特征,将不重要的特征系数设置为0

coef = pd.Series(model_lasso.coef_, index = X_train.columns)

print("Lasso picked {} variables and eliminated the other {} variables".format(sum(coef != 0), sum(coef==0)))

# 查看重要的特征, GrLivArea地上面积是最重要的正相关特征

imp_coef = pd.concat([coef.sort_values().head(10),coef.sort_values().tail(10)])

fig = plt.figure(figsize=(6,8))

imp_coef.plot(kind = "barh")

plt.title("Coefficients in the Lasso Model")

plt.show()

# 查看残差

est = pd.DataFrame({"est":model_lasso.predict(X_train), "true":Y_train})

plt.rcParams["figure.figsize"] = [6,6]

est["resi"] = est["true"] - est["est"]

est.plot(x = "est", y = "resi",kind = "scatter")

plt.show()

# xgboost模型

import xgboost as xgb

dtrain = xgb.DMatrix(X_train, label = Y_train)

dtest = xgb.DMatrix(X_test)

# 交叉验证

params = {"max_depth":2, "eta":0.1}

cv_xgb = xgb.cv(params, dtrain,  num_boost_round=500, early_stopping_rounds=100)

cv_xgb.loc[30:,["test-rmse-mean", "train-rmse-mean"]].plot()

plt.show()

# 训练模型

model_xgb = xgb.XGBRegressor(n_estimators=360, max_depth=2, learning_rate=0.1)

model_xgb.fit(X_train, Y_train)

'''

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,

       colsample_bytree=1, gamma=0, learning_rate=0.1, max_delta_step=0,

       max_depth=2, min_child_weight=1, missing=None, n_estimators=360,

       n_jobs=1, nthread=None, objective='reg:linear', random_state=0,

       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,

       silent=True, subsample=1)

'''

# 查看两种模型的预测结果, 将结果指数化

lasso_preds = np.expm1(model_lasso.predict(X_test))

xgb_preds = np.expm1(model_xgb.predict(X_test))

predictions = pd.DataFrame({"xgb":xgb_preds, "lasso":lasso_preds})

predictions.plot(x = "xgb", y = "lasso", kind = "scatter")

plt.show()

# 最终结果采用两种模型预测的加权平均值,提交结果

preds = 0.7*lasso_preds + 0.3*xgb_preds

result = pd.DataFrame({"id":test.Id, "SalePrice":preds})

result.to_csv('result.csv', index = False)

需要实验数据的请留言哦

kaggle预测房价的代码步骤的更多相关文章

Kaggle竞赛 —— 房价预测 (House Prices)
完整代码见kaggle kernel 或 Github 比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-technique ...
CSDN博客添加量子恒道统计代码步骤
CSDN博客添加量子恒道统计代码步骤. 1. 去量子恒道网站统计注册账户: 2. 添加已有的CSDN博客地址: 3. 添加博客后恒道代码里面会给你一个JavaScript脚本,记下里面的一串数字: ...
Git利用命令行提交代码步骤
利用命令行提交代码步骤进入你的项目目录1:拉取服务器代码,避免覆盖他人代码git pull2:查看当前项目中有哪些文件被修改过git status具体状态如下:1:Untracked: 未跟踪,一般为 ...
量化投资_MATLAB在时间序列建模预测及程序代码
1 ARMA时间序列机器特性下面介绍一种重要的平稳时间序列——ARMA时间序列. ARMA时间序列分为三种: AR模型,auto regressiv model MA模型,moving averag ...
MATLAB Coder从MATLAB生成C/C++代码步骤
MATLAB Coder可以从MATLAB代码生成独立的.可读性强.可移植的C/C++代码. 使用MATLAB Coder产生代码的3个步骤: 准备用于产生代码的MATLAB算法: 检查MATLAB代 ...
用线性单元（LinearUnit）实现工资预测的Python3代码
功能:通过样本进行训练,让线性单元自己找到(这就是所谓机器学习)工资计算的规律,然后用两组数据进行测试机器是否真的get到了其中的规律. 原文链接在文尾,文章中的代码为了演示起见,仅根据工作年限来预测 ...
转举例说明使用MATLAB Coder从MATLAB生成C/C++代码步骤
MATLAB Coder可以从MATLAB代码生成独立的.可读性强.可移植的C/C++代码. http://www.mathworks.cn/products/matlab-coder/ 使用MATL ...
kaggle预测
两个预测kaggle比赛一 .https://www.kaggle.com/c/web-traffic-time-series-forecasting/overview Arthur Suilin• ...
java读代码步骤
一.读代码的步骤 1.知道代码时用什么IDE开发的 2.将代码导入到IDE 3.连接数据库 A)连接到测试数据库 B)有sql脚本,在本地创建一个数据库,执行脚本,建立数据结构和导入数据. 4.尝试运 ...

随机推荐

P1085 管家的忠诚
题目描述老管家是一个聪明能干的人.他为财主工作了整整10年,财主为了让自已账目更加清楚.要求管家每天记k次账,由于管家聪明能干,因而管家总是让财主十分满意.但是由于一些人的挑拨,财主还是对管家产生了 ...
H3C 链路聚合配置举例
Linux 内核 /sys/class类
我们在本章中要考察最后的设备模型概念是类.一个类是一个设备的高级视图, 它抽象出低级的实现细节. 驱动可以见到一个 SCSI 磁盘或者一个 ATA 磁盘, 在类的级别, 它们都是磁盘. 类允许用户 ...
阿里云 CentOS8 Repo
# CentOS-Base.repo # # The mirror system uses the connecting IP address of the client and the # upda ...
MFC防止进程重复建立
原文:https://blog.csdn.net/zhang11wu4/article/details/7100839 在APP类的InitInstance()的最前面加入以下代码,建立互斥区,可防止 ...
Struts2 类型转换(易百教程）
在HTTP请求中的一切都被视为一个String由协议.这包括数字,布尔值,整数,日期,小数和一切.每一件事情是一个字符串,将根据HTTP.然而,Struts类可以有任何数据类型的属性.Struts的自 ...
006.MFC_对话框_复选框_单选钮
对话框和控件复选框单选框分组框示例:三原色画图一.建立名为Demo2的MFC工程,按照下图添加控件并修改2个Group Box Caption属性分别为颜色.外观修改3个Check Box Ca ...
Django框架之中间件MiddleWare
Django中的中间件是一个轻量级.底层的插件系统,可以介入Django的请求和响应处理过程,修改Django的输入或输出.中间件的设计为开发者提供了一种无侵入式的开发方式,增强了Django框架的健 ...
一篇文章带你了解 ZooKeeper 架构
上一篇文章,我们讲解了 ZooKeeper 入门知识,这篇文章主要讲解下 ZooKeeper 的架构,理解 ZooKeeper 的架构可以帮助我们更好地设计协同服务. 首先我们来看下 ZooKeepe ...
myeclipse上进行tomcat远程调试
1.将Tomcat中的bin目录下的startup.bat启动脚本复制一份到本目录下并且修改名字为startup-debug.bat,然后打开startup-debug.bat文件再startup- ...

kaggle预测房价的代码步骤

kaggle预测房价的代码步骤的更多相关文章

随机推荐

热门专题