kaggle竞赛入门整理

1、Bike Sharing Demand

kaggle: https://www.kaggle.com/c/bike-sharing-demand

目的：根据日期、时间、天气、温度等特征，预测自行车的租借量

处理：1、将日期（含年月日时分秒）提取出年，月，星期几，以及小时

2、season, weather都是类别标记的，利用哑变量编码

算法模型选取：

回归问题：1、RandomForestRegressor

2、GradientBoostingRegressor

# -*- coding: utf- -*-

import csv

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

train = pd.read_csv('data/train.csv')

test = pd.read_csv('data/test.csv')

# 选取特征值

selected_features = ['datetime', 'season', 'holiday',

                'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed']

#X_train = train[selected_features]

Y_train = train["count"]

result = test["datetime"]

# 特征值处理

month = pd.DatetimeIndex(train.datetime).month

day = pd.DatetimeIndex(train.datetime).dayofweek

hour = pd.DatetimeIndex(train.datetime).hour

season = pd.get_dummies(train.season)

weather = pd.get_dummies(train.weather)

X_train = pd.concat([season, weather], axis=)

X_test = pd.concat([pd.get_dummies(test.season), pd.get_dummies(test.weather)], axis=)

X_train['month'] = month

X_test['month'] = pd.DatetimeIndex(test.datetime).month

X_train['day'] = day

X_test['day'] = pd.DatetimeIndex(test.datetime).dayofweek

X_train['hour'] = hour

X_test['hour'] = pd.DatetimeIndex(test.datetime).hour

X_train['holiday'] = train['holiday']

X_test['holiday'] = test['holiday']

X_train['workingday'] = train['workingday']

X_test['workingday'] = test['workingday']

X_train['temp'] = train['temp']

X_test['temp'] = test['temp']

X_train['humidity'] = train['humidity']

X_test['humidity'] = test['humidity']

X_train['windspeed'] = train['windspeed']

X_test['windspeed'] = test['windspeed']

from sklearn.ensemble import *

clf = GradientBoostingRegressor(n_estimators=, max_depth=)

clf.fit(X_train, Y_train)

result = clf.predict(X_test)

result = np.expm1(result)

df=pd.DataFrame({'datetime':test['datetime'], 'count':result})

df.to_csv('results1.csv', index = False, columns=['datetime','count'])

from sklearn.ensemble import RandomForestRegressor

gbr = RandomForestRegressor()

gbr.fit(X_train, Y_train)

y_predict = gbr.predict(X_test).astype(int)

df = pd.DataFrame({'datetime': test.datetime, 'count': y_predict})

df.to_csv('result2.csv', index=False, columns=['datetime', 'count'])

#predictions_file = open("RandomForestRegssor.csv", "wb")

#open_file_object = csv.writer(predictions_file)

#open_file_object.writerow(["datetime", "count"])

#open_file_object.writerows(zip(res_time, y_predict))

2、Daily News for Stock Market Prediction

通过历史数据：包含每日点击率最高的25条新闻，与当日股市涨跌，来预测未来股市涨跌

方法一：

1、将25条新闻合并成一篇新闻，然后对每个单词做预处理（去掉特殊字符，含数字的单词，删除停词，变成小写，取词干），然后用TF-IDF提取特征，用SVM训练

2、用word2vec提取特征

具体实现：

https://github.com/yjfiejd/News_predict

3、

kaggle竞赛入门整理的更多相关文章

Kaggle竞赛入门（二）：如何验证机器学习模型
本文翻译自kaggle learn,也就是kaggle官方最快入门kaggle竞赛的教程,强调python编程实践和数学思想(而没有涉及数学细节),笔者在不影响算法和程序理解的基础上删除了一些不必要的 ...
Kaggle竞赛入门：决策树算法的Python实现
本文翻译自kaggle learn,也就是kaggle官方最快入门kaggle竞赛的教程,强调python编程实践和数学思想(而没有涉及数学细节),笔者在不影响算法和程序理解的基础上删除了一些不必要的 ...
《Python机器学习及实践：从零开始通往Kaggle竞赛之路》
<Python 机器学习及实践–从零开始通往kaggle竞赛之路>很基础主要介绍了Scikit-learn,顺带介绍了pandas.numpy.matplotlib.scipy. 本书代 ...
《机器学习及实践--从零开始通往Kaggle竞赛之路》
<机器学习及实践--从零开始通往Kaggle竞赛之路> 在开始说之前一个很重要的Tip:电脑至少要求是64位的,这是我的痛. 断断续续花了个把月的时间把这本书过了一遍.这是一本非常适合基于 ...
kaggle竞赛分享：NFL大数据碗（上篇）
kaggle竞赛分享:NFL大数据碗 - 上竞赛简介一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布: 竞赛链接 https://www ...
如何使用Python在Kaggle竞赛中成为Top15
如何使用Python在Kaggle竞赛中成为Top15 Kaggle比赛是一个学习数据科学和投资时间的非常的方式,我自己通过Kaggle学习到了很多数据科学的概念和思想,在我学习编程之后的几个月就开始 ...
初窥Kaggle竞赛
初窥Kaggle竞赛原文地址: https://www.dataquest.io/mission/74/getting-started-with-kaggle 1: Kaggle竞赛我们接下来将要 ...
（Step1-500题）UVaOJ+算法竞赛入门经典+挑战编程+USACO
http://www.cnblogs.com/sxiszero/p/3618737.html 下面给出的题目共计560道,去掉重复的也有近500题,作为ACMer Training Step1,用1年 ...
[刷题]算法竞赛入门经典 3-12/UVa11809
书上具体所有题目:http://pan.baidu.com/s/1hssH0KO 题目:算法竞赛入门经典 3-4/UVa11809:Floating-Point Numbers 代码: //UVa11 ...

随机推荐

.net core 2.0 数据访问-迁移
将用于进行迁移的 Entity Framework Core NuGet包添加到`.csproj`文件 <ItemGroup> <DotNetCliToolReference In ...
BZOJ1208[HNOI2004]宠物收养场——treap
凡凡开了一间宠物收养场.收养场提供两种服务:收养被主人遗弃的宠物和让新的主人领养这些宠物. 每个领养者都希望领养到自己满意的宠物,凡凡根据领养者的要求通过他自己发明的一个特殊的公式,得出该领养者希望领 ...
Educational Codeforces Round 62 (Rated for Div. 2)
A. Detective Book 题意:一个人读书给出每一章埋的坑在第几页可以填完 . 一个人一天如果不填完坑他就会一直看问几天能把这本书看完思路:模拟一下取一下过程中最大的坑的页数如 ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
MT【286】最佳有理逼近
2017北大优秀中学生夏令营已知$\omega $是整系数方程$x^2+ax+b=0$的一个无理数根, 求证:存在常数$C$,使得对任意互质的正整数$p,q$都有$$|\omega-\dfrac{p} ...
windows刷新本机DNS缓存
ipconfig /flushdns
【Linux命令】用户及分用户组
查看用户查看所有用户命令: cat /etc/passwd 上面命令输出内容比较杂乱,可以使用如下命令简化输出: #对于 cat /etc/passwd 的替换 cat /etc/passwd|gr ...
【BZOJ3691】游行（网络流）
[BZOJ3691]游行(网络流) 题面 BZOJ 然而权限题. Description 每年春季,在某岛屿上都会举行游行活动. 在这个岛屿上有N个城市,M条连接着城市的有向道路. 你要安排英雄们的巡 ...
[luogu2476][bzoj1079][SCOI2008]着色方案【动态规划】
题目描述有n个木块排成一行,从左到右依次编号为1~n.你有k种颜色的油漆,其中第i种颜色的油漆足够涂ci个木块.所有油漆刚好足够涂满所有木块,即c1+c2+-+ck=n.相邻两个木块涂相同色显得很难 ...
【转】gcc 编译使用动态链接库和静态链接库
1 库的分类根据链接时期的不同,库又有静态库和动态库之分. 静态库是在链接阶段被链接的(好像是废话,但事实就是这样),所以生成的可执行文件就不受库的影响了,即使库被删除了,程序依然可以成功运行. 有 ...

kaggle竞赛入门整理

kaggle竞赛入门整理的更多相关文章

随机推荐

热门专题