Spark学习笔记——手写数字识别

import org.apache.spark.ml.classification.RandomForestClassifier

import org.apache.spark.ml.regression.RandomForestRegressor

import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, NaiveBayes, SVMWithSGD}

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.optimization.L1Updater

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.mllib.tree.{DecisionTree, RandomForest}

import org.apache.spark.mllib.tree.configuration.Algo

import org.apache.spark.mllib.tree.impurity.Entropy

/**

  * Created by common on 17-5-17.

  */

case class LabeledPic(

                       label: Int,

                       pic: List[Double] = List()

                     )

object DigitRecognizer {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("DigitRecgonizer").setMaster("local")

    val sc = new SparkContext(conf)

    // 去掉第一行，sed 1d train.csv > train_noheader.csv

    val trainFile = "file:///media/common/工作/kaggle/DigitRecognizer/train_noheader.csv"

    val trainRawData = sc.textFile(trainFile)

    // 通过逗号对数据进行分割，生成数组的rdd

    val trainRecords = trainRawData.map(line => line.split(","))

    val trainData = trainRecords.map { r =>

      val label = r(0).toInt

      val features = r.slice(1, r.size).map(d => d.toDouble)

      LabeledPoint(label, Vectors.dense(features))

    }

    //    // 使用贝叶斯模型

    //    val nbModel = NaiveBayes.train(trainData)

    //

    //    val nbTotalCorrect = trainData.map { point =>

    //      if (nbModel.predict(point.features) == point.label) 1 else 0

    //    }.sum

    //    val nbAccuracy = nbTotalCorrect / trainData.count

    //

    //    println("贝叶斯模型正确率：" + nbAccuracy)

    //

    //    // 对测试数据进行预测

    //    val testRawData = sc.textFile("file:///media/common/工作/kaggle/DigitRecognizer/test_noheader.csv")

    //    // 通过逗号对数据进行分割，生成数组的rdd

    //    val testRecords = testRawData.map(line => line.split(","))

    //

    //    val testData = testRecords.map { r =>

    //      val features = r.map(d => d.toDouble)

    //      Vectors.dense(features)

    //    }

    //    val predictions = nbModel.predict(testData).map(p => p.toInt)

    //    // 保存预测结果

    //    predictions.coalesce(1).saveAsTextFile("file:///media/common/工作/kaggle/DigitRecognizer/test_predict")

    //    // 使用线性回归模型

    //    val lrModel = new LogisticRegressionWithLBFGS()

    //      .setNumClasses(10)

    //      .run(trainData)

    //

    //    val lrTotalCorrect = trainData.map { point =>

    //      if (lrModel.predict(point.features) == point.label) 1 else 0

    //    }.sum

    //    val lrAccuracy = lrTotalCorrect / trainData.count

    //

    //    println("线性回归模型正确率：" + lrAccuracy)

    //

    //    // 对测试数据进行预测

    //    val testRawData = sc.textFile("file:///media/common/工作/kaggle/DigitRecognizer/test_noheader.csv")

    //    // 通过逗号对数据进行分割，生成数组的rdd

    //    val testRecords = testRawData.map(line => line.split(","))

    //

    //    val testData = testRecords.map { r =>

    //      val features = r.map(d => d.toDouble)

    //      Vectors.dense(features)

    //    }

    //    val predictions = lrModel.predict(testData).map(p => p.toInt)

    //    // 保存预测结果

    //    predictions.coalesce(1).saveAsTextFile("file:///media/common/工作/kaggle/DigitRecognizer/test_predict1")

    //    // 使用决策树模型

    //    val maxTreeDepth = 10

    //    val numClass = 10

    //    val dtModel = DecisionTree.train(trainData, Algo.Classification, Entropy, maxTreeDepth, numClass)

    //

    //    val dtTotalCorrect = trainData.map { point =>

    //      if (dtModel.predict(point.features) == point.label) 1 else 0

    //    }.sum

    //    val dtAccuracy = dtTotalCorrect / trainData.count

    //

    //    println("决策树模型正确率：" + dtAccuracy)

    //

    //    // 对测试数据进行预测

    //    val testRawData = sc.textFile("file:///media/common/工作/kaggle/DigitRecognizer/test_noheader.csv")

    //    // 通过逗号对数据进行分割，生成数组的rdd

    //    val testRecords = testRawData.map(line => line.split(","))

    //

    //    val testData = testRecords.map { r =>

    //      val features = r.map(d => d.toDouble)

    //      Vectors.dense(features)

    //    }

    //    val predictions = dtModel.predict(testData).map(p => p.toInt)

    //    // 保存预测结果

    //    predictions.coalesce(1).saveAsTextFile("file:///media/common/工作/kaggle/DigitRecognizer/test_predict2")

//    // 使用随机森林模型

//    val numClasses = 30

//    val categoricalFeaturesInfo = Map[Int, Int]()

//    val numTrees = 50

//    val featureSubsetStrategy = "auto"

//    val impurity = "gini"

//    val maxDepth = 10

//    val maxBins = 32

//    val rtModel = RandomForest.trainClassifier(trainData, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

//

//    val rtTotalCorrect = trainData.map { point =>

//      if (rtModel.predict(point.features) == point.label) 1 else 0

//    }.sum

//    val rtAccuracy = rtTotalCorrect / trainData.count

//

//    println("随机森林模型正确率：" + rtAccuracy)

//

//    // 对测试数据进行预测

//    val testRawData = sc.textFile("file:///media/common/工作/kaggle/DigitRecognizer/test_noheader.csv")

//    // 通过逗号对数据进行分割，生成数组的rdd

//    val testRecords = testRawData.map(line => line.split(","))

//

//    val testData = testRecords.map { r =>

//      val features = r.map(d => d.toDouble)

//      Vectors.dense(features)

//    }

//    val predictions = rtModel.predict(testData).map(p => p.toInt)

//    // 保存预测结果

//    predictions.coalesce(1).saveAsTextFile("file:///media/common/工作/kaggle/DigitRecognizer/test_predict")

  }

}

Spark学习笔记——手写数字识别的更多相关文章

TessorFlow学习之手写数字识别的搭建
手写数字识别的搭建
机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一.问题与解决方案通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像 ...
机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）
一.概述上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是 ...
学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec
人工神经网络,借鉴生物神经网络工作原理数学模型. 由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息.信息检索领域,模型训练合理排序模型,输入特征,文档质量.文档点击历史.文档 ...
SVM学习笔记（二）----手写数字识别
引言上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考 ...
【深度学习系列】PaddlePaddle之手写数字识别
上周在搜索关于深度学习分布式运行方式的资料时,无意间搜到了paddlepaddle,发现这个框架的分布式训练方案做的还挺不错的,想跟大家分享一下.不过呢,这块内容太复杂了,所以就简单的介绍一下padd ...
【深度学习系列】手写数字识别卷积神经--卷积神经网络CNN原理详解(一)
上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...
深度学习之 mnist 手写数字识别
深度学习之 mnist 手写数字识别开始学习深度学习,先来一个手写数字的程序 import numpy as np import os import codecs import torch from ...
深度学习之PyTorch实战（3）——实战手写数字识别
上一节,我们已经学会了基于PyTorch深度学习框架高效,快捷的搭建一个神经网络,并对模型进行训练和对参数进行优化的方法,接下来让我们牛刀小试,基于PyTorch框架使用神经网络来解决一个关于手写数字 ...

随机推荐

Django——博客项目
博客项目目前的目标是构建一个基于Django的前后端完整的博客系统,首先对项目流程整理如下: 1. 分析需求 1.1. 基于用户认证组件和Ajax实现登录验证图形验证码核心代码: 模板: < ...
潭州课堂25班：Ph201805201 WEB 之 JS 第四课 (课堂笔记)
JS 引入方式在 HTML 中写入写在的标签里 <script> </script>推荐放在 </body> 结束之前 <!DOCTYPE html& ...
[AGC025B]RGB Coloring
[AGC025B]RGB Coloring 题目大意: 有$n(n\le3\times10^5)$个格子,每个格子可以选择涂成红色.蓝色.绿色或不涂色,三种颜色分别产生\(a,b,a+b(a,b\ ...
[TYVJ1473]校门外的树3
思路: 维护两个树状数组,一个记录种树区间左端点,一个记录右端点. 每次询问查询“看不见的树区间”,即右端点小于查询区间左端点和左端点小于查询区间右端点. #include<cstdio> ...
redis清除缓存和连接远程服务器
直接进入命令行输入 1.连接远程redis: redis-cli -h 127.0.0.1 -p 3008 -a pIctur3 (a后是密码) 2.查看缓存:keys * 3.清除缓存:de ...
php 替换二维数组的 key
php 替换二维数组中的 key // 需要替换 key 的数组 $arr_old = array( '0' => array('id' => 1, 'name' => 'Carro ...
linux tail命令的使用方法详解
本文介绍Linux下tail命令的使用方法. linux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更 ...
使用HttpClient实现并发请求
在.Net 4.0之前,一直是依靠HttpWebRequest实现Http操作的.它默认有一个非常保守的同一站点下最大2并发数限制,导致默认情况下HttpWebRequest往往得不到理想的速度,必须 ...
实现Qemu aarch32虚拟开发板ping www.baidu.com
环境 Qemu: 2.8.0 开发板: vexpress-ca9 概述如果要玩物联网,至少应该让开发板实现联网,让qemu支持联网在之前的博文中已经有介绍了,但是如果只能在自己的局域网内玩耍就太没意 ...
Go语言之高级篇beego框架之请求数据处理
1.Controller中数据参数处理获取参数:我们经常需要获取用户传递的数据,包括 Get.POST 等方式的请求,beego 里面会自动解析这些数据,你可以通过如下方式获取数据: GetStri ...

Spark学习笔记——手写数字识别

Spark学习笔记——手写数字识别的更多相关文章

随机推荐

热门专题