使用spark访问elasticsearch的数据

使用spark访问elasticsearch的数据，前提是spark能访问hive，hive能访问es

http://blog.csdn.net/ggz631047367/article/details/50445832

1.配置

cp elasticsearch-hadoop-2.1.1/dist/elasticsearch-hadoop-2.1.1.jar /usr/local/spark-1.5.2/lib/

2.修改配置文件/usr/local/spark/conf/hive-site.xml,添加

<property>

  <name>hive.aux.jars.path</name>

  <value>file:///usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar</value>

  <description>A comma separated list (with no spaces) of the jar files</description>

</property>

3.配置/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar,在spark-env.sh添加

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar

4.启动

sbin/start-thriftserver.sh   --hiveconf hive.server2.thrift.port=10000  --hiveconf hive.server2.thrift.bind.host=hadoop-master     --master spark://10.8.2.100:7077  --jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar

或者

bin/spark-sql –master spark://10.8.2.100:7077 –jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar

5.测试

beeline -u jdbc:hive2://10.8.2.100:10000 (稍等一下执行此命令，报错有可能是服务还没起来)

select count(dtime) from achi_ex limit 10;

注意：–driver-class-path和–jars的区别，使用sbin/start-thriftserver.sh -h查看

如果1中拷贝到所有slave中spark/lib中，后面不用—jars指定jar包

这种方式比直接访问hive中的数据慢一倍左右

使用spark访问elasticsearch的数据的更多相关文章

使用hive访问elasticsearch的数据
使用hive访问elasticsearch的数据 1.配置将elasticsearch-hadoop-2.1.1.jar拷贝到hive/lib hive -hiveconf hive.aux.jar ...
Spark往Elasticsearch读写数据
def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("DecisionTre ...
Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
数据湖应用解析：Spark on Elasticsearch一致性问题
摘要:脏数据对数据计算的正确性带来了很严重的影响.因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性. 概述 Spark与Elasticsearch(es ...
Spark访问与HBase关联的Hive表
知识点1:创建关联Hbase的Hive表知识点2:Spark访问Hive 知识点3:Spark访问与Hbase关联的Hive表知识点1:创建关联Hbase的Hive表两种方式创建,内部表和外部表 ...
Spark访问Hive表
知识点1:Spark访问HIVE上面的数据配置注意点:. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中(sp ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...
TOP100summit：【分享实录-Microsoft】基于Kafka与Spark的实时大数据质量监控平台
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服 ...
Elasticsearch的数据导出和导入操作（elasticdump工具），以及删除指定type的数据（delete-by-query插件）
Elasticseach目前作为查询搜索平台,的确非常实用方便.我们今天在这里要讨论的是如何做数据备份和type删除.我的ES的版本是2.4.1. ES的备份,可不像MySQL的mysqldump这么 ...

随机推荐

AMD规范：define和require的区别
define和require在依赖处理和回调执行上都是一样的,不一样的地方是define的回调函数需要有return语句返回模块对象(注意是对象),这样define定义的模块才能被其他模块引用:req ...
Python教程：[69]strip()函数详解
strip()用于裁剪字符串首尾的某些字符,是一个用处非常多的函数,今天我们来通过例子来探讨一下它的基本用法: 假如有一个这样的字符串 strip()不带任何参数,可以删除首位的空格但是strip( ...
邮件发送工具类 SendMail.java
package com.util; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.Simp ...
（五）Linux引导流程解析
目录 Linux引导流程 Linux运行级别 Linux启动服务管理 GRUB配置与应用启动故障分析与解决 Linux引导流程 Linux系统引导流程如下图: 固件(Firmware)就是写入ERO ...
JAVA包命名规范
学习Java的童鞋们都知道,Java的包.类.接口.方法.变量.常量:JavaEE的三层模型等都有一套约定俗成的命名规则. 我学习每种语言都会关注相应的命名规则,一则体现自己比较专业:二来方便后检查, ...
客户端TortoiseSVN的安装及使用方法
一.客户端TortoiseSVN的安装运行TortoiseSVN程序,点击Next,下面的截图顺序即为安装步骤: 图1: 图2: 图3: 图4: 点击Finish按钮后会提示重启系统,其实不重启也没 ...
【Andorid开发框架学习】之Mina开发之服务器开发
下午那篇博客我们讲到了Mina的客户端的开发,如果还有没看过的同学可以看一下,我是传送门.现在,我们来学习一下,Mina的服务器的开发. 一.首先看一下,我的服务器的代码图片: 服务器代码我是在My ...
css中的继承、层叠、样式优先级机制
一.继承与层叠:
【Hadoop测试程序】编写MapReduce测试Hadoop环境
我们使用之前搭建好的Hadoop环境,可参见: <[Hadoop环境搭建]Centos6.8搭建hadoop伪分布模式>http://www.cnblogs.com/ssslinppp/p ...
android学习笔记46——File存储
File存储--IO操作文件 openFileOutput.openFileInput Context提供了如下两个方法来打开本应用程序的数据文件夹里面的文件IO流. 1.FileInputStrea ...

使用spark访问elasticsearch的数据

使用spark访问elasticsearch的数据的更多相关文章

随机推荐

热门专题