phoenix与spark整合

目的是将phoenix做存储，spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。
在这里将Phoenix的表作为spark的RDD或者DataFrames来操作，并且将操作的结果写回phoenix中。
这样做也扩大了两者的使用场景。

Phoenix 版本 4.4.0
Hbase版本 0.98
spark版本 spark-1.5.2-bin-hadoop2.6
首先配置 SPARK_CLASSPATH
要想在spark中操作phoenix，就必须让spark可以找到phoenix的相关类，所以我们把client放到spark_classpath中

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-spark-4.4.0-HBase-0.98-tests.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-4.4.0-HBase-0.98-client.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-server-client-4.4.0-HBase-0.98.jar

这样就可以在spark-shell中操作phoenix了

下来结合两者做下实验：
1> 在phoenix中创建几张表

[hadoop@10.10.113.45 ~/phoenix/bin]$>./sqlline.py 10.10.113.45:2181

0: jdbc:phoenix:10.10.113.45:2181> CREATE TABLE EMAIL_ENRON(

. . . . . . . . . . . . . . . . .> MAIL_FROM BIGINT NOT NULL,

. . . . . . . . . . . . . . . . .> MAIL_TO BIGINT NOT NULL

. . . . . . . . . . . . . . . . .> CONSTRAINT pk PRIMARY KEY(MAIL_FROM, MAIL_TO));

0: jdbc:phoenix:10.10.113.45:2181> CREATE TABLE EMAIL_ENRON_PAGERANK(

. . . . . . . . . . . . . . . . .> ID BIGINT NOT NULL,

. . . . . . . . . . . . . . . . .> RANK DOUBLE

. . . . . . . . . . . . . . . . .> CONSTRAINT pk PRIMARY KEY(ID));

No rows affected (0.52 seconds)

查看下是否创建成功

0: jdbc:phoenix:10.10.113.45:2181> !tables

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

| TABLE_CAT | TABLE_SCHEM | TABLE_NAME | |

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

| | SYSTEM | CATALOG | SYSTEM TABLE |

| | SYSTEM | FUNCTION | SYSTEM TABLE |

| | SYSTEM | SEQUENCE | SYSTEM TABLE |

| | SYSTEM | STATS | SYSTEM TABLE |

| | | EMAIL_ENRON | TABLE |

| | | EMAIL_ENRON_PAGERANK | TABLE |

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

0: jdbc:phoenix:10.10.113.45:2181>

2> 在将数据load到phoenix中，数据有40万行

[hadoop@10.10.113.45 ~/phoenix/bin]$>./psql.py -t EMAIL_ENRON 10.10.113.45:2181 /home/hadoop/sfs/enron.csv

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

15/12/03 10:06:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

csv columns from database.

CSV Upsert complete. 367662 rows upserted

Time: 21.783 sec(s)

数据来源：https://snap.stanford.edu/data/email-Enron.html
然后在查询下

0: jdbc:phoenix:10.10.113.45:2181> select count(*) from EMAIL_ENRON;

+------------------------------------------+

| COUNT(1) |

+------------------------------------------+

| 367662 |

+------------------------------------------+

1 row selected (0.289 seconds)

看37万数据，查询不到一秒！！！
下面进入到spark-shell 的交互模式，我们做一个PageRank 算法的例子

[hadoop@10.10.113.45 ~/spark/bin]$>./spark-shell

scala> import org.apache.spark.graphx._

import org.apache.spark.graphx._

scala> import org.apache.phoenix.spark._

import org.apache.phoenix.spark._

scala> val rdd = sc.phoenixTableAsRDD("EMAIL_ENRON", Seq("MAIL_FROM", "MAIL_TO"), zkUrl=Some("10.10.113.45"))

rdd: org.apache.spark.rdd.RDD[Map[String,AnyRef]] = MapPartitionsRDD[2] at map at SparkContextFunctions.scala:39

scala> val rawEdges = rdd.map{ e => (e("MAIL_FROM").asInstanceOf[VertexId], e("MAIL_TO").asInstanceOf[VertexId]) }

rawEdges: org.apache.spark.rdd.RDD[(org.apache.spark.graphx.VertexId, org.apache.spark.graphx.VertexId)] = MapPartitionsRDD[3] at map at <console>:29

scala> val graph = Graph.fromEdgeTuples(rawEdges, 1.0)

graph: org.apache.spark.graphx.Graph[Double,Int] = org.apache.spark.graphx.impl.GraphImpl@621bb3c3

scala> val pr = graph.pageRank(0.001)

pr: org.apache.spark.graphx.Graph[Double,Double] = org.apache.spark.graphx.impl.GraphImpl@55e444b1

scala> pr.vertices.saveToPhoenix("EMAIL_ENRON_PAGERANK", Seq("ID", "RANK"), zkUrl = Some("10.10.113.45"))（这一步会很耗内存，可能有的同学在测试的时候会报OOM，建议增大spark中executor memory，driver memory的大小）

我们在去phoenix中查看一下结果。

0: jdbc:phoenix:10.10.113.45:2181> select count(*) from EMAIL_ENRON_PAGERANK;

+------------------------------------------+

| COUNT(1) |

+------------------------------------------+

| 29000 |

+------------------------------------------+

1 row selected (0.113 seconds)

0: jdbc:phoenix:10.10.113.45:2181> SELECT * FROM EMAIL_ENRON_PAGERANK ORDER BY RANK DESC LIMIT 5;

+------------------------------------------+------------------------------------------+

| ID | RANK |

+------------------------------------------+------------------------------------------+

| 273 | 117.18141799210386 |

| 140 | 108.63091596789913 |

| 458 | 107.2728800448782 |

| 588 | 106.11840798585399 |

| 566 | 105.13932886531066 |

+------------------------------------------+------------------------------------------+

5 rows selected (0.568 seconds)

phoenix与spark整合的更多相关文章

Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
spark整合Phoenix相关案例
spark 读取Phoenix hbase table表到 DataFrame的方式 Demo1: 方式一:spark read读取各数据库的通用方式方式二:spark.load 方式三:phoen ...
Spark整合Hive
spark-sql 写代码方式 1.idea里面将代码编写好打包上传到集群中运行,上线使用 spark-submit提交 2.spark shell (repl) 里面使用sqlContext 测试使 ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...
cdh 安装记录
安装文件准备 CDH 下载地址:http://archive.cloudera.com/cdh5/parcels/latest/ 下载操作系统对应的版本: 1．CDH-5.3.0-1.cdh5.3.0 ...
Ambari HDP 下 SPARK2 与 Phoenix 整合
1.环境说明操作系统 CentOS Linux release 7.4.1708 (Core) Ambari 2.6.x HDP 2.6.3.0 Spark 2.x Phoenix 4.10.0-H ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
hive启动报错（整合spark）
spark整合hive后,hive启动报错: ls: cannot access /export/servers/spark/lib/spark-assembly-*.jar: No such fil ...
【转】Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...

随机推荐

Linux跨用户copy文件
foo用户home目录下有一文件file.txt,要将其copy至bar用户的home目录.Linux对用户home目录有严格的权限限制,非owner用户或者同group用户无权限读写,除非是root ...
Bitmap旋转方法
最近在做一个ORC图片解析的功能,要求解析出数字但是发现他解析只能解析横着的图片,然后我拍照的时候拍的是竖直照片,当然你也可以去旋转照相机的屏幕但是我这里为了方便选择的是竖直拍出来然后,旋转下咯 ...
Android Hook Dexposed原理小析
dexposed是阿里巴巴在xposed框架上面开发的hotpatch一套框架当然hotpatch的方式有很多,这里先介绍下dexposed原理 Demo中有个test函数, 在调用hook之前正常 ...
MySQL 死锁问题分析
转载: MySQL 死锁问题分析线上某服务时不时报出如下异常(大约一天二十多次):"Deadlock found when trying to get lock;". Oh, M ...
(35)odoo中widget
widget大全: many2many_tagsone2many_listselectionprogressbarselectionstatusbarhandlemonetarymail_thread ...
Android碎片使用
首先新建一个fragment的布局文件, <?xml version="1.0" encoding="utf-8"?><LinearLay ...
JQuery Cross Domain
frontend: first :add $.support.cors=true; in front of the Ajax code. seconde: add the crossDomain:tr ...
python打印目录下的文件名
打印当前目录所有文件名 import fnmatch, os def allFiles(root, patterns = '*', single_level = False, yield_folder ...
CSipSimple结构浅析
最近做一个VOIP的项目,调研了CSipSimple.都说CSipSimple结构清晰,但是代码下下来看了一下,还是一头雾水,不知从何看起.于是想到从最简单的打电话开始,借助网上一篇博文"C ...
黑马程序员——OC语言类和对象
Java培训.Android培训.iOS培训..Net培训.期待与您交流! (以下内容是对黑马苹果入学视频的个人知识点总结) (一)类 1)类的声明代码编写 ①定义一个Car类,拥有2个属性:轮子数 ...

phoenix与spark整合

phoenix与spark整合的更多相关文章

随机推荐

热门专题