spark0.9.1集群模式执行graphx測试程序（LiveJournalPageRank,新增Connected Components）

wzzkaifa 2024-10-31 02:19:31 原文

spark最新版公布了。之前的版本号就已经集成了graphx，这个版本号还改了一些bug。

我做了简单測试，只是网上关于集群模式执行spark资料太少了，仅仅有关于EC2（见參考资料1）的。可是还非常旧，好多命令都有变化了。非常讨厌写安装类的博客不注明当前使用软件的版本号，这是常识好不好？！

我的平台配置：

spark：0.9.1

scala：2.10.4

hadoop：1.0.4

jdk：1.7.0

master node：1

worker node：16

1. spark 0\.9\.1的部署

參见之前的博客

2. 下载graphx的測试程序输入集（点击下载：soc-LiveJournal1.txt.gz）

假设失效能够留言跟我要。

3. 执行graphx測试程序pagerank

./bin/run-example org.apache.spark.examples.graphx.LiveJournalPageRank spark://$MASTERIP:7077 hdfs://$HDFSIP:9000/soc-LiveJournal1.txt --numEPart=192 --output=pagerank_out

參数解释，自己看吧：

Usage: LiveJournalPageRank <master> <edge_list_file>

[--tol=<tolerance>]

The tolerance allowed at convergence (smaller => more accurate). Default is 0.001.

[--output=<output_file>]

If specified, the file to write the ranks to.

[--numEPart=<num_edge_partitions>]

The number of partitions for the graph's edge RDD. Default is 4.

[--partStrategy=RandomVertexCut | EdgePartition1D | EdgePartition2D | CanonicalRandomVertexCut]

The way edges are assigned to edge partitions. Default is RandomVertexCut.

4. 执行graphx測试程序Connected Components

该benchmark输入和pagerank能够一样。执行命令例如以下：

./bin/run-example org.apache.spark.graphx.lib.Analytics spark://$MASTERIP:7077 cc hdfs://$HDFSIP:8020/soc-LiveJournal1.txt --numIter=20 -numEPart=192

參考资料：

1. https://github.com/amplab/graphx/wiki/Launch-a-benchmarking-cluster

2. http://blog.csdn.net/qianlong4526888/article/details/21441131

3. http://spark.apache.org/docs/latest/graphx-programming-guide.html#pagerank

spark0.9.1集群模式执行graphx測试程序（LiveJournalPageRank,新增Connected Components）的更多相关文章

hadoop2.7全然分布式集群搭建以及任务測试
要想深入的学习hadoop数据分析技术,首要的任务是必需要将hadoop集群环境搭建起来,本文主要讲述怎样搭建一套hadoop全然分布式集群环境. 环境配置:2台64位的redhat6.5 + 1台 ...
Zookeeper实战之嵌入式执行Zookeeper集群模式
非常多使用Zookeeper的情景是须要我们嵌入Zookeeper作为自己的分布式应用系统的一部分来提供分布式服务.此时我们须要通过程序的方式来启动Zookeeper.此时能够通过Zookeeper ...
就publish/subscribe功能看redis集群模式下的队列技术（一）
Redis 简介 Redis 是完全开源免费的,是一个高性能的key-value数据库. Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中 ...
hadoop单机and集群模式安装
最近在学习hadoop,第一步当然是亲手装一下hadoop了. 下面记录我hadoop安装的过程: 注意: 1,首先明确hadoop的安装是一个非常简单的过程,装hadoop的主要工作都在配置文件上, ...
Greenplum源码编译安装（单机及集群模式）完全攻略
公司有个项目需要安装greenplum数据库,让我这个gp小白很是受伤,在网上各种搜,结果找到的都是TMD坑货帖子,但是经过4日苦战,总算是把greenplum的安装弄了个明白,单机及集群模式都部署成 ...
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析（续）
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析(续) 今天延续昨天的内容,主要对为什么一个处理会分解成多个Job执行进行解析. 让我们跟踪下Job调用过 ...
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析今天通过集群运行模式观察.研究和透彻的刨析SparkStreaming的日志和web监控台. Day28 ...
Eclipse的下载、安装和WordCount的初步使用（本地模式和集群模式）
包括: Eclipse的下载 Eclipse的安装 Eclipse的使用本地模式或集群模式 Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群 ...
IntelliJ IDEA的下载、安装和WordCount的初步使用（本地模式和集群模式）
包括: IntelliJ IDEA的下载 IntelliJ IDEA的安装 IntelliJ IDEA中的scala插件安装用SBT方式来创建工程或选择Scala方式来创建工程本地模式或集群 ...

随机推荐

git删除本地所有的更改
删除本地所有为暂存的修改: git checkout -f 如果有修改以及加入暂存区的话那么使用如下命令: git reset --hard git clean -xdf
HDU 5483 Nux Walpurgis
Nux Walpurgis Time Limit: 8000ms Memory Limit: 131072KB This problem will be judged on HDU. Original ...
九度oj 题目1086：最小花费
题目描述: 在某条线路上有N个火车站,有三种距离的路程,L1,L2,L3,对应的价格为C1,C2,C3.其对应关系如下: 距离s 票价 0<S<=L1 ...
Terracotta
Terracotta 3.2.1简介 (一) 博客分类: 企业应用面临的问题 Java&Socket 开源组件的应用 hibernatejava集群服务器EhcacheQuartzTerrac ...
只操作git（cmd）就可以使用git将项目上传到github
代码改变世界使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具, ...
【Android】页面迁移时先弹出键盘问题解决
android自动弹出软键盘(输入键盘) 在AndroidMainfest.xml内容无法更改情况下,也就是键盘非要弹出情况下,进入此页面时先关闭软键盘不让其弹出 InputMethodManager ...
算法复习——单调队列(sliding windows,ssoi）
题目: 题目描述给你一个长度为 N 的数组,一个长为 K 的滑动的窗体从最左移至最右端,你只能见到窗口的 K 个整数,每次窗体向右移动一位,如下表:
Caffe的Solver参数设置
Caffe的solver参数设置 http://caffe.berkeleyvision.org/tutorial/solver.html solver是通过协调前向-反向传播的参数更新来控制参数优化 ...
OsCache MemCached EhCache
Memcache:分布式内存对象缓存系统,占用其他机子的内存.很多互联网,负载均衡三台(以三台为例)web服务器可以共享一台Memcache的资源.传递的信息以键值对的形式存储.传递的数据要实现序列化 ...
【Codevs1907】方格取数3（最小割）
题意:在一个有m*n 个方格的棋盘中,每个方格中有一个正整数.现要从方格中取数,使任意2 个数所在方格没有公共边,且取出的数的总和最大.试设计一个满足要求的取数算法. n,m<=30 思路:如果 ...