Kaggle 项目之 Digit Recognizer

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度，共 28*28=784 个像素点，每个像素值都在 0~255 之间。

train.csv 包含 785 列，因为第 1 列是手写数字的真实值，后面的 784 列都是像素值。除第一行外，有 42000 条数据。

test.csv 除了不包含 label 列，其它跟 train.csv 一样。除第一行外，有 28000 条数据。

先来看看 train.csv 里的灰度图片是什么样子。

Python 代码：

import os

import pandas as pd

import matplotlib.pyplot as plt

os.chdir("E:\Kaggle\digit-recognizer")

img = pd.read_csv('train.csv')

img = img.values[0:11,1:]

fig = plt.figure() 

for i in range(0,9,1):

    print "\ncurrent num is: %d" % i

    px = img[i,:]

    pix = []

    for j in range(28):

        pix.append([])

        for k in range(28):

            pix[j].append(px[j*28+k])

    ax = fig.add_subplot(330+i+1)

    ax.imshow(pix)

plt.show()

train.csv 中前 9 个数字如下所示，跟文件中的 label 一样。

KNN 示例代码：

import pandas as pd

import numpy as np

import time

from sklearn.cross_validation import cross_val_score

dataset = pd.read_csv("train.csv")

X_train = dataset.values[0:, 1:]

y_train = dataset.values[0:, 0]

X_test = pd.read_csv("test.csv").values

from sklearn.neighbors import KNeighborsClassifier

knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)

print("Training start")

start = time.clock()

knn_clf.fit(X_train,y_train)

elapsed = (time.clock() - start)

print("Training Time used:",int(elapsed/60) , "min")

result=knn_clf.predict(X_test)

result = np.c_[range(1,len(result)+1), result.astype(int)]

df_result = pd.DataFrame(result, columns=['ImageId', 'Label'])

df_result.to_csv('./results.knn.csv', index=False)

#end time

elapsed = (time.clock() - start)

print("Test Time used:",int(elapsed/60) , "min")

Kaggle 项目之 Digit Recognizer的更多相关文章

kaggle实战记录 =>Digit Recognizer
date:2016-09-13 今天开始注册了kaggle,从digit recognizer开始学习, 由于是第一个案例对于整个流程目前我还不够了解,首先了解大神是怎么运行怎么构思,然后模仿.这样的 ...
Kaggle入门(一)——Digit Recognizer
目录 0 前言 1 简介 2 数据准备 2.1 导入数据 2.2 检查空值 2.3 正则化 Normalization 2.4 更改数据维度 Reshape 2.5 标签编码 2.6 分割交叉验证集 ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
适合初学者的使用CNN的数字图像识别项目：Digit Recognizer with CNN for beginner
准备工作数据集介绍数据文件 train.csv 和 test.csv 包含从零到九的手绘数字的灰度图像. 每张图像高 28 像素,宽 28 像素,总共 784 像素.每个像素都有一个与之关联的像素 ...
Kaggle—Digit Recognizer竞赛
Digit Recognizer 手写体数字识别 MNIST数据集本赛 train 42000样例 test 28000样例,原始MNIST是 train 60000 test 10000 我分别 ...
Kiggle:Digit Recognizer
题目链接:Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total o ...
DeepLearning to digit recognizer in kaggle
DeepLearning to digit recongnizer in kaggle 近期在看deeplearning,于是就找了kaggle上字符识别进行练习.这里我主要用两种工具箱进行求解.并比 ...
Kaggle项目实战一：Titanic: Machine Learning from Disaster
项目地址 https://www.kaggle.com/c/titanic 项目介绍: 除了乘客的编号以外,还包括下表中10个字段,构成了数据的所有特征 Variable Definition Key ...
kaggle 实战（1）: PCA + KNN 手写数字识别
文章目录加载package read data PCA 降维探索选择50维度, 拆分数据为训练集,测试机 KNN PCA降维和K值筛选分析k & 维度 vs 精度预测生成提交文件本 ...

随机推荐

Redis常见操作
1. 对于key的所有操作 del key1 key2 … keyn 作用:删除1个或者多个键返回值:不存在的key忽略掉,返回真正删除的key的数量 rename key newkey 作用:给ke ...
zabbix 添加微信、邮件媒介详解
1:zabbix 添加微信.邮件媒介. 1.2:发送告警邮件 1:一次完整的监控流程可以简单描述为: Host Groups (设备组) ->Hosts ( ...
MYSQL中，CAST函数的使用规则
CAST函数语法规则是:Cast(字段名 as 转换的类型 ),其中类型可以为: CHAR[(N)] 字符型 DATE 日期型DATETIME 日期和时间型DECIMAL float型SIGNED i ...
oracle的相关信息
[INS-08109] :https://blog.csdn.net/u012830807/article/details/17302919[INS-13001]:https://blog.csdn. ...
pytorch rnn 2
import torch import torch.nn as nn import numpy as np import torch.optim as optim class RNN(nn.Modul ...
web Servlet 3.0 新特性之web模块化编程，web-fragment.xml编写及打jar包
web Servlet 3.0 模块化原本一个web应用的任何配置都需要在web.xml中进行,因此会使得web.xml变得很混乱,而且灵活性差,因此Servlet 3.0可以将每个Servlet. ...
mysql相关配置
http://www.cnblogs.com/cnblogsfans/archive/2009/09/21/1570942.html http://www.jb51.net/article/31902 ...
C++必知必会
C++ Common knowledge Essential Intermediate Programming C++必知必会 [美] StephenC.Dewhurst 著荣耀译人民邮电出 ...
[acm/icpc2016ChinaFinal][CodeforcesGym101194] Mr. Panda and Fantastic Beasts
地址:http://codeforces.com/gym/101194 题目:略思路: 这题做法挺多的,可以sam也可以后缀数组,我用sam做的. 1.我自己yy的思路(瞎bb的) 把第一个串建立s ...
Codeforces Round #416 (Div. 2) D. Vladik and Favorite Game
地址:http://codeforces.com/contest/811/problem/D 题目: D. Vladik and Favorite Game time limit per test 2 ...

Kaggle 项目之 Digit Recognizer

Kaggle 项目之 Digit Recognizer的更多相关文章

随机推荐

热门专题