Kaggle 项目之 Digit Recognizer

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度，共 28*28=784 个像素点，每个像素值都在 0~255 之间。

train.csv 包含 785 列，因为第 1 列是手写数字的真实值，后面的 784 列都是像素值。除第一行外，有 42000 条数据。

test.csv 除了不包含 label 列，其它跟 train.csv 一样。除第一行外，有 28000 条数据。

先来看看 train.csv 里的灰度图片是什么样子。

Python 代码：

import os

import pandas as pd

import matplotlib.pyplot as plt

os.chdir("E:\Kaggle\digit-recognizer")

img = pd.read_csv('train.csv')

img = img.values[0:11,1:]

fig = plt.figure() 

for i in range(0,9,1):

    print "\ncurrent num is: %d" % i

    px = img[i,:]

    pix = []

    for j in range(28):

        pix.append([])

        for k in range(28):

            pix[j].append(px[j*28+k])

    ax = fig.add_subplot(330+i+1)

    ax.imshow(pix)

plt.show()

train.csv 中前 9 个数字如下所示，跟文件中的 label 一样。

KNN 示例代码：

import pandas as pd

import numpy as np

import time

from sklearn.cross_validation import cross_val_score

dataset = pd.read_csv("train.csv")

X_train = dataset.values[0:, 1:]

y_train = dataset.values[0:, 0]

X_test = pd.read_csv("test.csv").values

from sklearn.neighbors import KNeighborsClassifier

knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)

print("Training start")

start = time.clock()

knn_clf.fit(X_train,y_train)

elapsed = (time.clock() - start)

print("Training Time used:",int(elapsed/60) , "min")

result=knn_clf.predict(X_test)

result = np.c_[range(1,len(result)+1), result.astype(int)]

df_result = pd.DataFrame(result, columns=['ImageId', 'Label'])

df_result.to_csv('./results.knn.csv', index=False)

#end time

elapsed = (time.clock() - start)

print("Test Time used:",int(elapsed/60) , "min")

Kaggle 项目之 Digit Recognizer的更多相关文章

kaggle实战记录 =>Digit Recognizer
date:2016-09-13 今天开始注册了kaggle,从digit recognizer开始学习, 由于是第一个案例对于整个流程目前我还不够了解,首先了解大神是怎么运行怎么构思,然后模仿.这样的 ...
Kaggle入门(一)——Digit Recognizer
目录 0 前言 1 简介 2 数据准备 2.1 导入数据 2.2 检查空值 2.3 正则化 Normalization 2.4 更改数据维度 Reshape 2.5 标签编码 2.6 分割交叉验证集 ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
适合初学者的使用CNN的数字图像识别项目：Digit Recognizer with CNN for beginner
准备工作数据集介绍数据文件 train.csv 和 test.csv 包含从零到九的手绘数字的灰度图像. 每张图像高 28 像素,宽 28 像素,总共 784 像素.每个像素都有一个与之关联的像素 ...
Kaggle—Digit Recognizer竞赛
Digit Recognizer 手写体数字识别 MNIST数据集本赛 train 42000样例 test 28000样例,原始MNIST是 train 60000 test 10000 我分别 ...
Kiggle:Digit Recognizer
题目链接:Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total o ...
DeepLearning to digit recognizer in kaggle
DeepLearning to digit recongnizer in kaggle 近期在看deeplearning,于是就找了kaggle上字符识别进行练习.这里我主要用两种工具箱进行求解.并比 ...
Kaggle项目实战一：Titanic: Machine Learning from Disaster
项目地址 https://www.kaggle.com/c/titanic 项目介绍: 除了乘客的编号以外,还包括下表中10个字段,构成了数据的所有特征 Variable Definition Key ...
kaggle 实战（1）: PCA + KNN 手写数字识别
文章目录加载package read data PCA 降维探索选择50维度, 拆分数据为训练集,测试机 KNN PCA降维和K值筛选分析k & 维度 vs 精度预测生成提交文件本 ...

随机推荐

【keras框架】
更高级别的封装.更简单的api,以tensorflow.theano为后端,支持更多的平台读取网络模型后生成网络结构图读取 from keras.models import load_model ...
Favorite Donut--hdu5442（2015年长春网选赛，kmp，最大表示法）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5442 打比赛的时候还没学kmp更没有学最大最小表示法,之后做完了kmp的专题,学了它们,现在再来做这道 ...
【题解】P5151 HKE与他的小朋友
[题解]P5151 HKE与他的小朋友实际上,位置的关系可以看做一组递推式,\(f(a_i)=f(a_j),f(a_j)=f(a_t),etc...\)那么我们可以压进一个矩阵里面. 考虑到这个矩阵 ...
Git 使用配置
应用情景:使用Git前需要配置 user.name 和 user.email 信息.Git利用这些信息记录谁进行了什么样的操作.Git属于分布式版本管理系统,开发者很多,配置这个就相当于自报家门,告诉 ...
又一次认识java（四） — 组合、聚合与继承的爱恨情仇
有人学了继承,认为他是面向对象特点之中的一个,就在全部能用到继承的地方使用继承,而不考虑到底该不该使用,无疑.这是错误的.那么.到底该怎样使用继承呢? java中类与类之间的关系大部分的刚開始学习的 ...
007-Hadoop Hive sql语法详解2-修改表结构
一.表更改表名:ALTER TABLE table_name RENAME TO new_table_name 增加表的元数据信息:ALTER TABLE table_name SET TBLPRO ...
11g ASM新特性
Oracle 11g的ASM有两个有意思的特性,我们看看他们能带给我们什么? 1.Fast mirror resync 原来当diskgroup中的盘发生故障时,Oracle会将这个盘标记为offli ...
测试CDockablePane。测试他的最基本的功能。
最近看到一句话: ××××××××××××××××××××××××××××××××××××××××××× CDockablePane是一个通用窗口容器,它主要有两个用途:在一个框架中悬浮或者停靠窗口. ...
node+express+http-proxy-middleware做代理
最近,不赶着做项目,于是想着怎样做公司的前后端分离,这个时候想到了nodejs,于是打算今天做一个代理的demo,其实代码很简单,但是一直卡在一个地方,现在问题解决了,贴上代码和截图. html &l ...
资料：mnist.pkl.gz数据包的下载以及数据内容解释
deeplearning.net/data/mnist/mnist.pkl.gz The MNIST dataset consists of handwritten digit images and ...

Kaggle 项目之 Digit Recognizer

Kaggle 项目之 Digit Recognizer的更多相关文章

随机推荐

热门专题