SPARK在linux中的部署，以及SPARK中聚类算法的使用

眼下，SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法。SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用，以及当中聚类算法的实现。

在官网http://spark.apache.org/上直接下载编译好的tar安装包能够加快部署速度。

spark的执行依赖于scala2.10.4，注意此版本号一定要正确，否则spark不能正确执行。

1、scala的安装非常easy。在官网http://www.scala-lang.org上下载安装包，解压到随意路径后。在linux中设置好环境变量后就可以使用（编辑profile文件）。

#scala by Ryne 2014.10.27

export PATH=/usr/share/scala-2.10.4/bin:$PATH

在shell里面输入scala能够正确执行即表示成功安装。

2、解压spark安装包后须要改动conf路径下的spark-env.sh文件，在当中配置好java和scala的路径后就可以执行。

export SCALA_HOME=/usr/share/scala-2.10.4

export JAVA_HOME=/usr/java/jre1.6.0_45

假设出现编码错误则还须要许改spark-defaults.conf文件，在该文件末尾添加下面内容就可以。

spark.io.compression.codec lzf

所有工作完毕后。执行bin/spark-shell就可以。

===========================切割线=====================================

spark中的聚类算法为kmeans。

须要导入的模块有

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

读入文件

val data = sc.textFile("your file")

val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))

val clusters = KMeans.train(parsedData, numClusters, numIterations, parallRunNums)

就可以得到聚类结果。

//聚类中心

val clusterCenters=clusters.clusterCenters

//聚类结果标签

val labels=clusters.predict(parsedData)

//保存结果

labels.saveAsTextFile("。

。。")

==================================完===================================

SPARK在linux中的部署，以及SPARK中聚类算法的使用的更多相关文章

MATLAB中“fitgmdist”的用法及其GMM聚类算法
MATLAB中“fitgmdist”的用法及其GMM聚类算法作者:凯鲁嘎吉 - 博客园http://www.cnblogs.com/kailugaji/ 高斯混合模型的基本原理:聚类——GMM,MA ...
机器学习：weka中添加自己的分类和聚类算法
不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法. 一添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Cl ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
在Docker中从头部署自己的Spark集群
由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有 ...
在 Azure HDInsight 中安装和使用 Spark
Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解 ...
Spark入门，概述，部署，以及学习（Spark是一种快速、通用、可扩展的大数据分析引擎）
1:Spark的官方网址:http://spark.apache.org/ Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.Graph ...
H01-Linux系统中搭建Hadoop和Spark集群
前言 1.操作系统:Centos7 2.安装时使用的是root用户.也可以用其他非root用户,非root的话要注意操作时的权限问题. 3.安装的Hadoop版本是2.6.5,Spark版本是2.2. ...
Docker中提交任务到Spark集群
1. 背景描述和需求数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算. 接收程序部署在Docker中,主机不在Hadoop集群上.与Spa ...
Spark Standalone模式高可用部署
本文使用Spark的版本为:spark-2.4.0-bin-hadoop2.7.tgz. spark的集群采用3台机器进行搭建,机器分别是server01,server02,server03. 其 ...

随机推荐

Currency System in Geraldion (Codeforces 560A)
A Currency System in Geraldion Time Limit:2000MS Memory Limit:262144KB 64bit IO Format:%I64 ...
HDU 4786 生成树并查集+极大极小值黑白边确定选择白边的数量
题意: 给定一个无向图 n 个点 m条无向边 u v val val == 1 表示边(u, v) 为白边问能否找到n个点的生成树, 使得白边数为斐波那契数思路: 并查集求图是否连通( 是否存在生 ...
js调试工具console详解
#console基本输出方法,占位符:字符(%s).整数(%d).浮点数(%f)和对象(%o) console.log('日志'); console.info('信息'); console.error ...
html5 学习笔记
一.ie8及以下对html5相关语义标签的支持 <!-[if lt IE9]> <script src="html5.js"></script> ...
Chapter 17 Replication 复制
Chapter 17 Replication 复制 Table of Contents 17.1 Replication Configuration 17.2 Replication Implemen ...
海量数据处理算法—Bloom Filter
海量数据处理算法—Bloom Filter 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bl ...
coreldraw圆形裁剪
裁剪方法: http://zhidao.baidu.com/link?url=9-OuTkkr7igOHgKDOhJgU6iUYY5MeGEGdNXX8p6RGq79Im4va0UdMAmH4gSDz ...
C语言之基本算法09—各位全是a的数列之和
/* ================================================================== 题目:数列为a,aa,aaa,--.求a+aa+aaa+-- ...
cygrunsrv: Error starting a service: QueryServiceStatus: Win32 error 1062: 解决办法
问题原因:很可能是/var/log的权限设置不正确.首先执行 mkpasswd 和 mkgroup 重新生成权限信息,再删除sshd服务,重新配置解决办法: $ mkpasswd -l > / ...
android的fragment基本介绍
可以分为下面的几部分: 使用支持库创建一个Fragment 创建一个动态UI 多个Fragment之间的通信 1.使用支持库如果您的应用需要运行在3.0及以上的版本,可以忽略这部分内容. 如果您的 ...

SPARK在linux中的部署，以及SPARK中聚类算法的使用

SPARK在linux中的部署，以及SPARK中聚类算法的使用的更多相关文章

随机推荐

热门专题