文章目录

加载package
read data
PCA 降维探索
选择50维度，拆分数据为训练集，测试机
KNN PCA降维和K值筛选
分析k & 维度 vs 精度
预测
生成提交文件

本文采用PCA+KNN的方法进行kaggle手写数字识别，训练数据共有42000行，每行代表一幅数字图片，共有784列（一副数字图像是28*28像素，将一副图像展开为一行即784），更多关于Digit Recognizer项目的介绍https://www.kaggle.com/c/digit-recognizer

由于训练数据量太大，直接采用KNN非常耗时,采用PCA降维的方法，选取25个维度，跑完全部数据只需200秒左右。

加载package

# This Python 3 environment comes with many helpful analytics libraries installed

# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python

# For example, here's several helpful packages to load in 

import numpy as np # linear algebra

import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt # import de Matplotlib

from IPython.display import display

from PIL import Image

# Input data files are available in the "../input/" directory.

# For example, running this (by clicking run or pressing Shift+Enter) will list the files in the input directory

import os

print(os.listdir("../input"))

# Any results you write to the current directory are saved as output.

read data

train=pd.read_csv('../input/train.csv')

train.shape

submission = pd.read_csv('../input/test.csv')

test=pd.read_csv('../input/test.csv')

test.shape

y_train = train['label']

y_train.head()

x_train=train.drop(['label'], axis=1)

x_train.head() # affiche le tableau ci-dessous

X_submission =test

PCA 降维探索

pca = PCA(200)

pca_full = pca.fit(x_train)

plt.plot(np.cumsum(pca_full.explained_variance_ratio_))

plt.xlabel('# of components')

plt.ylabel('Cumulative explained variance')

选择50维度，拆分数据为训练集，测试机

pca = PCA(n_components=50)

X_train_transformed = pca.fit_transform(x_train)

X_submission_transformed = pca.transform(x_test)

from sklearn.model_selection import train_test_split

X_train_pca, X_test_pca, y_train_pca, y_test_pca = train_test_split(X_train_transformed, y_train, test_size=0.2, random_state=13)

KNN PCA降维和K值筛选

components = [5, 10, 15, 20, 25, 30, 35, 40, 45, 50]

neighbors = [1, 2, 3, 4, 5, 6, 7]

scores = np.zeros( (components[len(components)-1]+1, neighbors[len(neighbors)-1]+1 ) )

from sklearn.neighbors import KNeighborsClassifier

for component in components:

    for n in neighbors:

        knn = KNeighborsClassifier(n_neighbors=n)

        knn.fit(X_train_pca[:,:component], y_train_pca)

        score = knn.score(X_test_pca[:,:component], y_test_pca)

        #predict = knn.predict(X_test_pca[:,:component])

        scores[component][n] = score

        print('Components = ', component, ', neighbors = ', n,', Score = ', score)

k 值的意义：

分析k & 维度 vs 精度

scores = np.reshape(scores[scores != 0], (len(components), len(neighbors)))

x = [0, 1, 2, 3, 4, 5, 6]

y = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

plt.rcParams["axes.grid"] = False

fig, ax = plt.subplots()

plt.imshow(scores, cmap='hot', interpolation='none', vmin=.90, vmax=1)

plt.xlabel('neighbors')

plt.ylabel('components')

plt.xticks(x, neighbors)

plt.yticks(y, components)

plt.title('KNN score heatmap')

plt.colorbar()

plt.show()

预测

knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train_pca[:, :35], y_train_pca)

predict_labels = knn.predict(X_submission_transformed[:, :35])

对于PCA维度的选取：在多次尝试后，采用35个维度，效果较好。需要注意的是，PCA处理后的训练数据和原始数据是不同的，所以采用PCA处理数据后，并不是选取的维度越多精确度就越好。k 选5 可以达到很好效果

生成提交文件

Submission = pd.DataFrame({

        "ImageId": range(1, predict_labels.shape[0]+1),

        "Label": predict_labels

    })

Submission.to_csv("KnnMnistSubmission.csv", index=False)

Submission.head(5)

kaggle 实战（1）: PCA + KNN 手写数字识别的更多相关文章

机器学习（二）-kNN手写数字识别
一.kNN算法是机器学习的入门算法,其中不涉及训练,主要思想是计算待测点和参照点的距离,选取距离较近的参照点的类别作为待测点的的类别. 1,距离可以是欧式距离,夹角余弦距离等等. 2,k值不能选择太大 ...
10，knn手写数字识别
# 导包 import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClas ...
KNN手写数字识别
import numpy as np import matplotlib .pyplot as plt from sklearn.neighbors import KNeighborsClassifi ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
Kaggle竞赛丨入门手写数字识别之KNN、CNN、降维
引言这段时间来,看了西瓜书.蓝皮书,各种机器学习算法都有所了解,但在实践方面却缺乏相应的锻炼.于是我决定通过Kaggle这个平台来提升一下自己的应用能力,培养自己的数据分析能力. 我个人的计划是先从 ...
K近邻实战手写数字识别
1.导包 import numpy as np import operator from os import listdir from sklearn.neighbors import KNeighb ...
深度学习之PyTorch实战（3）——实战手写数字识别
上一节,我们已经学会了基于PyTorch深度学习框架高效,快捷的搭建一个神经网络,并对模型进行训练和对参数进行优化的方法,接下来让我们牛刀小试,基于PyTorch框架使用神经网络来解决一个关于手写数字 ...
KNN实现手写数字识别
KNN实现手写数字识别博客上显示这个没有Jupyter的好看,想看Jupyter Notebook的请戳KNN实现手写数字识别.ipynb 1 - 导入模块 import numpy as np i ...
用MXnet实战深度学习之一:安装GPU版mxnet并跑一个MNIST手写数字识别
用MXnet实战深度学习之一:安装GPU版mxnet并跑一个MNIST手写数字识别 http://phunter.farbox.com/post/mxnet-tutorial1 用MXnet实战深度学 ...

随机推荐

Android Telephony分析(七) ---- 接口扩展(异步转同步)
本文是基于上一篇<Android Telephony分析(六) —- 接口扩展(实践篇)>来写的.上一篇介绍的接口扩展的方法需要实现两部分代码:1. 从APP至RIL,发送请求:2. 从R ...
socket API CSocket CAsyncSocket 用法及区别
要进行网络编程就要和Socket打交道,Socket有同步阻塞方式和异步非阻塞方式两种使用,事实上同步和异步在我们编程的生涯中可能遇到了很多,而Socket也没什么特别.虽然同步好用,不费劲,但不能满 ...
[BOI2009]Radio Transmission 无线传输
题目描述给你一个字符串,它是由某个字符串不断自我连接形成的. 但是这个字符串是不确定的,现在只想知道它的最短长度是多少. 输入输出格式输入格式: 第一行给出字符串的长度,1 < L ≤ 1, ...
ios网络学习------2 用非代理方法实现同步post请求
#pragma mark - 这是私有方法,尽量不要再方法中直接使用属性,由于一般来说属性都是和界面关联的,我们能够通过參数的方式来使用属性 #pragma mark post登录方法 -(void) ...
css 画饼图倒计时圆圈
html <div class="pie"></div> css .pie{ width: 200px; height: 200px; border-rad ...
python 对象的删除
linux 两个进程通过共享内存通信例子
例子1:两个进程通过共享内存通信,一个进程向共享内存中写入数据,另一个进程从共享内存中读出数据文件1 创建进程1,实现功能,打印共享内存中的数据 #include <stdio.h> # ...
nginx 简单使用
一,下载 http://nginx.org/en/download.html 这个是我下载的windows版本二,解压后目录三,修改配置文件 (由于80端口很可能被 SQL Server Repo ...
PHP算法之电话号码的字母组合
给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合. 给出数字到字母的映射如下(与电话按键相同).注意 1 不对应任何字母. 示例: 输入:"23"输出:[" ...
LoadRunner模拟REST接口的json请求
LoadRunner模拟REST接口的json请求现在很多手机应用的性能测试,REST接口调用通过json格式,在用loadrunner模拟这些json请求时,需要开发提供 1.供接口地址 2.提交 ...

kaggle 实战 （1）: PCA + KNN 手写数字识别