Spark机器学习7·降维模型(scala&python)

PCA(主成分分析法，Principal Components Analysis)
SVD(奇异值分解法，Singular Value Decomposition)

http://vis-www.cs.umass.edu/lfw/lfw-a.tgz

0 运行环境

export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6

cd $SPARK_HOME

bin/spark-shell --name my_mlib --packages org.jblas:jblas:1.2.4-SNAPSHOT --driver-memory 4G --executor-memory 4G --driver-cores 2

1 抽取特征

1.1 载入脸部数据

val PATH = "/Users/erichan/sourcecode/book/Spark机器学习"

val path = PATH+"/lfw/*"

val rdd = sc.wholeTextFiles(path)

val files = rdd.map { case (fileName, content) => fileName.replace("file:", "") }

println(files.count)

1054

1.2 可视化脸部数据(python)

ipython -pylab

PATH = "/Users/erichan/sourcecode/book/Spark机器学习"

path = PATH+"/lfw/Aaron_Eckhart/Aaron_Eckhart_0001.jpg"

ae = imread(path)

imshow(ae)

tmpPath = "/tmp/aeGray.jpg"

aeGary = imread(tmpPath)

imshow(aeGary, cmap=plt.cm.gray)

1.3 提取脸部图片作为向量

1.3.1 载入图片

import java.awt.image.BufferedImage

def loadImageFromFile(path: String): BufferedImage = {

    import javax.imageio.ImageIO

    import java.io.File

    ImageIO.read(new File(path))

}

val aePath = PATH+"/lfw/Aaron_Eckhart/Aaron_Eckhart_0001.jpg"

val aeImage = loadImageFromFile(aePath)

1.3.2 转换灰度、改变尺寸

def processImage(image: BufferedImage, width: Int, height: Int): BufferedImage = {

    val bwImage = new BufferedImage(width, height, BufferedImage.TYPE_BYTE_GRAY)

    val g = bwImage.getGraphics()

    g.drawImage(image, 0, 0, width, height, null)

    g.dispose()

    bwImage

}

val grayImage = processImage(aeImage, 100, 100)

import javax.imageio.ImageIO

import java.io.File

ImageIO.write(grayImage, "jpg", new File("/tmp/aeGray.jpg"))

1.3.3 提取特征向量

def getPixelsFromImage(image: BufferedImage): Array[Double] = {

    val width = image.getWidth

    val height = image.getHeight

    val pixels = Array.ofDim[Double](width * height)

    image.getData.getPixels(0, 0, width, height, pixels)

    // pixels.map(p => p / 255.0)       // optionally scale to [0, 1] domain

}

// put all the functions together

def extractPixels(path: String, width: Int, height: Int): Array[Double] = {

    val raw = loadImageFromFile(path)

    val processed = processImage(raw, width, height)

    getPixelsFromImage(processed)

}

val pixels = files.map(f => extractPixels(f, 50, 50))

println(pixels.take(10).map(_.take(10).mkString("", ",", ", ...")).mkString("\n"))

1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0, ...
247.0,173.0,159.0,144.0,139.0,155.0,32.0,7.0,4.0,5.0, ...
253.0,254.0,253.0,253.0,253.0,253.0,253.0,253.0,253.0,253.0, ...
242.0,242.0,246.0,239.0,238.0,239.0,225.0,165.0,140.0,167.0, ...
47.0,221.0,205.0,46.0,41.0,154.0,127.0,214.0,232.0,232.0, ...
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, ...
75.0,76.0,72.0,72.0,72.0,74.0,71.0,78.0,54.0,26.0, ...
25.0,27.0,24.0,22.0,26.0,27.0,19.0,16.0,22.0,25.0, ...
240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0, ...
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, ...

import org.apache.spark.mllib.linalg.Vectors

val vectors = pixels.map(p => Vectors.dense(p))

vectors.setName("image-vectors")

vectors.cache

1.4 正则化

import org.apache.spark.mllib.feature.StandardScaler

val scaler = new StandardScaler(withMean = true, withStd = false).fit(vectors)

val scaledVectors = vectors.map(v => scaler.transform(v))

2 训练降维模型

2.1 前k个主成分

import org.apache.spark.mllib.linalg.Matrix

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val matrix = new RowMatrix(scaledVectors)

val K = 10

val pc = matrix.computePrincipalComponents(K)

val rows = pc.numRows

val cols = pc.numCols

println(rows, cols)

(2500,10)

2.2 可视化特征脸

import breeze.linalg.DenseMatrix

val pcBreeze = new DenseMatrix(rows, cols, pc.toArray)

import breeze.linalg.csvwrite

import java.io.File

csvwrite(new File("/tmp/pc.csv"), pcBreeze)

pc = np.loadtxt("/tmp/pc.csv", delimiter=",")

print(pc.shape)

def plot_gallery(images, h, w, n_row=2, n_col=5):

    """Helper function to plot a gallery of portraits"""

    plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))

    plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)

    for i in range(n_row * n_col):

        plt.subplot(n_row, n_col, i + 1)

        plt.imshow(images[:, i].reshape((h, w)), cmap=plt.cm.gray)

        plt.title("Eigenface %d" % (i + 1), size=12)

        plt.xticks(())

        plt.yticks(())

plot_gallery(pc, 50, 50)

3 使用降维模型

3.1 PCA投影（图像矩阵x主成分矩阵）

val projected = matrix.multiply(pc)

println(projected.numRows, projected.numCols)

println(projected.rows.take(5).mkString("\n"))

3.2 PCA与SVD

val svd = matrix.computeSVD(10, computeU = true)

println(s"U dimension: (${svd.U.numRows}, ${svd.U.numCols})")

println(s"S dimension: (${svd.s.size}, )")

println(s"V dimension: (${svd.V.numRows}, ${svd.V.numCols})")

U dimension: (1054, 10)
S dimension: (10, )
V dimension: (2500, 10)

def approxEqual(array1: Array[Double], array2: Array[Double], tolerance: Double = 1e-6): Boolean = {

    // note we ignore sign of the principal component / singular vector elements

    val bools = array1.zip(array2).map { case (v1, v2) => if (math.abs(math.abs(v1) - math.abs(v2)) > 1e-6) false else true }

    bools.fold(true)(_ & _)

}

println(approxEqual(Array(1.0, 2.0, 3.0), Array(1.0, 2.0, 3.0)))

println(approxEqual(Array(1.0, 2.0, 3.0), Array(3.0, 2.0, 1.0)))

println(approxEqual(svd.V.toArray, pc.toArray))

true
false
true

// compare projections

val breezeS = breeze.linalg.DenseVector(svd.s.toArray)

val projectedSVD = svd.U.rows.map { v =>

    val breezeV = breeze.linalg.DenseVector(v.toArray)

    val multV = breezeV :* breezeS

    Vectors.dense(multV.data)

}

projected.rows.zip(projectedSVD).map { case (v1, v2) => approxEqual(v1.toArray, v2.toArray) }.filter(b => true).count

4 评价降维模型

4.1 评估SVD的k值

val sValues = (1 to 5).map { i => matrix.computeSVD(i, computeU = false).s }

val svd300 = matrix.computeSVD(300, computeU = false)

val sMatrix = new DenseMatrix(1, 300, svd300.s.toArray)

csvwrite(new File("/tmp/s.csv"), sMatrix)

s = np.loadtxt("/tmp/s.csv", delimiter=",")

print(s.shape)

plot(s)

plot(cumsum(s))

plt.yscale('log')

Spark机器学习7·降维模型(scala&python)的更多相关文章

Spark机器学习5·回归模型(pyspark)
分类模型的预测目标是:类别编号回归模型的预测目标是:实数变量回归模型种类线性模型最小二乘回归模型应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO ...
Spark机器学习6·聚类模型(spark-shell)
K-均值(K-mean)聚类目的:最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类 ...
Spark机器学习4·分类模型(spark-shell)
线性模型逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Ba ...
Spark机器学习1·编程入门(scala/java/python)
Spark安装目录 /Users/erichan/Garden/spark-1.4.0-bin-hadoop2.6 基本测试 ./bin/run-example org.apache.spark.ex ...
吴裕雄 python 机器学习——等度量映射Isomap降维模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
吴裕雄 python 机器学习——局部线性嵌入LLE降维模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
Mac 配置Spark环境scala+python版本（Spark1.6.0）
1. 从官网下载Spark安装包,解压到自己的安装目录下(默认已经安装好JDK,JDK安装可自行查找): spark官网:http://spark.apache.org/downloads.html ...
梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...

随机推荐

【BZOJ】3390: [Usaco2004 Dec]Bad Cowtractors牛的报复（kruskal）
http://www.lydsy.com/JudgeOnline/problem.php?id=3390 .. #include <cstdio> #include <cstring ...
C、C++数据类型所占字节数
C标准中并没有详细给出规定那个基本类型应该是多少字节数.详细与机器.OS.编译器有关,比方相同是在32bits的操作系统系,VC++的编译器下int类型为占4个字节:而tuborC下则是2个字节. 所 ...
终于找到了最新的Chemdarw注册码
随着中国人对知识产权的保护意识提升,正版软件越来越流行,只有一小部分人还在寻找Chemdarw破解版.最新的ChemDraw 15正式版本已经强势来袭,在获取软件安装包之后需要有效的注册码才能激活软件 ...
jacob操作 office 内部对应代码
Excel操作转换 xlAddIn 18 Microsoft Office Excel 加载项 xlAddIn8 ...
linux系统中利用vagrant创建虚拟开发环境
Vagrant简介作为程序员,可能需要同时开发多个项目,使用多种编程语言,需要使用各种操作系统,如果将很多东西放在同一个电脑上,肯定会被各种配置环境搞晕.一个比较好的办法就是每个项目都有一个干净的开 ...
【Git和GitHub】学习笔记
1. 书籍推荐: 先看一本比较简单并且好的入门书籍 Git - Book https://git-scm.com/book/zh/v2 2. 书籍理解: Git 有三种状态,你的文件可能处于其中之一: ...
The Thinking of AutomaticTest（有关自动化测试的思考）
考虑因素: 容易维护简洁易懂代码重用性好系统的稳定性强 UI自动化: 数据的获取:装载的数据文件类型.数据的形式.数据的解析方法定义. 1.利用Junit单元测试组织用例,明确输入数据.预期 ...
Servlet——总结
当我们学完了JavaSe部分的知识之后,如果我们往Web方面发展和学习的话,我们将会接触到一个非常重要的web技术——Servlet.在说明Servlet的配置之前我们先来了通过下面的请求响应图解一下 ...
通过文件对照工具Merge数据库
项目分成线下开发版.线上測试版.线上生产版,因此相应有三个数据库. 对于一些静态数据.经常须要同步.改动了线下的开发版本号,同一时候也须要更新线上的測试版和线上生产版数据库,有时候线上的一些数据库改动 ...
NYOJ 119 士兵杀敌（三）(RMQ算法）
採用的的是小牛的写法,蒟蒻第一次写.. RMQ (Range Minimum/Maximum Query)问题是指:对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n).返回数 ...

Spark机器学习7·降维模型(scala&python)

0 运行环境

1 抽取特征

1.1 载入脸部数据

1.2 可视化脸部数据(python)

1.3 提取脸部图片作为向量

1.3.1 载入图片

1.3.2 转换灰度、改变尺寸

1.3.3 提取特征向量

1.4 正则化

2 训练降维模型

2.1 前k个主成分

2.2 可视化特征脸

3 使用降维模型

3.1 PCA投影（图像矩阵x主成分矩阵）

3.2 PCA与SVD

4 评价降维模型

4.1 评估SVD的k值

Spark机器学习7·降维模型(scala&python)的更多相关文章

随机推荐

热门专题