Hive on ES

ES对于类似数据库的SQL查询很无力,可以使用Hive on ES来实现SQL的查询.2个百万级的索引做关联时,需要大概1分多钟,基于es2.1版本. 1.将elasticsearch-hadoop-2.1.1.jar拷贝到hive/lib目录下. 2.创建hive表 create external table test( name string, address ARRAY<STRING>, ) stored by 'org.elasticsearch.hadoop.hive.EsStor…

hive向es推送数据

第一步:首先要保证网络是通的,很多公司里子网遍布,要和运维和工程侧同事确认好网络是通的,es的地址可以通过curl es地址的方式测试一下. 第二步:下载需要的jar包,必须的是es-hadoop的包,可以在https://www.elastic.co/cn/downloads/下载,其他可能还需要,如果没有就等报错然后百度查吧.... 下载以后要传到hdfs一个地址,否则无法在hive中添加,用hdfs dfs -put命令. 第三步:在hive中添加jar包,ADD JAR hdfs://n…

Hive与ES整合

https://www.elastic.co/guide/en/elasticsearch/hadoop/current/hive.html 注:添加的第三方jar必须位于namenode下,否则依然找不到该jar包.或者直接添加到hdfs!! 安装 1.CLI方式: (1)将elasticsearch-hadoop jar放于Hive classpath中.在HIVE CLI下,使用ADD命令添加文件,jars或归档到classpath: ADD JAR /path/elasticsearch…

轻量级OLAP（二）：Hive + Elasticsearch

1. 引言在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别.常驻地标签的用户,计算广告媒体上的覆盖UV.OLAP解决方案Kylin不支持复杂数据类型(array.struct.map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别.常驻地标签.显然,我们需要一种支持复杂数据类型的OLAP数据库:底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Herme…

2017 ES GZ Meetup分享：Data Warehouse with ElasticSearch in Datastory

以下是我在2017 ES 广州 meetup的分享 ppt:https://elasticsearch.cn/slides/11#page=22 摘要 ES最多使用的场景是搜索和日志分析,然而ES强大的实时索引查询.全文检索和聚合能力也能成为数据仓库与OLAP场景的强力支持.本次分享将为大家带来数说故事如何借助ES和Hadoop生态在不同的数据场景下构建起数据仓库能力. 背景数说故事主要业务为数据商业智能分析,涉及业务包括数字营销.数据分析洞察.消费者连接,同时我们还拥有自己的数据源. 目前我…

解决Hive与Elasticsearch共有库 guava 冲突 NoSuchMethodError

情况描述解决方法方法一:Shade and relocate 简介 Shade Elasticsearch 引入shade ES jar 方法二:修改集群Job配置策略(未实验) 情况描述使用JDBC从Hive中抽取数据,所以maven项目中有hive依赖库: 数据导入Elasticsearch,版本2.3.1其中guava库为18以上的版本 hive与ES的guava版本冲突现象:java.lang.NoSuchMethodError: com.google.common.util.c…

es第十篇：Elasticsearch for Apache Hadoop

es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce.hive.pig.cascading.spark)与es交互. At the core, elasticsearch-hadoop integrates two distributed systems: Hadoop, a distributed computing platform and Elasticsearch, a real-time search an…

Spark 入门

Spark 入门目录一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 1. 2. 六. 运行WordCount Demo 1. 2. 3. 七. Spark TopKey Demo 八. 1. 2. 一. Spark功能和优势 1. Spark功能 Spark类似于MapReduce,是另一种分布式计算框架,由于MapRe…

使用太过简单jqprint源码也极其简洁易懂

就像开发一样, 这篇文档如果没有人关心和维护, 里面的内容就会变得老旧, 过时而不再具有参考价值. 所以, 我希望所有看到并喜欢这篇文档的人都一起来维护它. 放心大胆的提交 Pull Request 和 Issue 吧!! 广告日志与标签数据均落在Hive表,并且ES官方提供与Hive的集成.因此,我们首选用Hive向ES写数据.首先,采用ES做数据存储,创建表如下: add jar /path/elasticsearch-hadoop-2.3.1.jar; create external ta…

基于百度地图SDK和Elasticsearch GEO查询的地理围栏分析系统（1）

本文描述了一个系统,功能是评价和抽象地理围栏(Geo-fencing),以及监控和分析核心地理围栏中业务的表现. 技术栈:Spring-JQuery-百度地图WEB SDK 存储:Hive-Elasticsearch-MySQL-Redis 什么是地理围栏? LBS系统中,地理围栏指的是虚拟边界围成的部分. tips:这只是一个demo,支撑实习生的本科毕设,不代表生产环境,而且数据已经做了脱密处理,为了安全还是隐去了所有数据. 功能描述 1.地理围栏的圈选 (1)热力图热力图展示的是,北京市…

[爬虫]采用Go语言爬取天猫商品页面

最近工作中有一个需求,需要爬取天猫商品的信息,整个需求的过程如下: 修改后端广告交易平台的代码,从阿里上传的素材中解析url,该url格式如下: https://handycam.alicdn.com/slideshow/26/7ef5aed1e3c39843e8feac816a436ecf.mp4?content=%7B%22items%22%3A%5B%7B%22images%22%3A%5B%22https%3A%2F%2Fasearch.alicdn.com%2Fbao%2Fupload…

flume 架构设计优化

对于企业中常用的flume type 概括如下:ource(获取数据源): exec (文件) spoolingdir (文件夹) taildir(文件夹及文件的变动) kafka syslog http channel(管道): mem file kafka sink(将channel中的数据发送到目标地址): hdfs hive hbase ES 从集群可用性,可靠性,可扩展性和兼容性等方面,对架构优化进行设计. 1.可用性(availablity) 可用性(availablity)指固定…

kafka-connect-hive Sink插件入门指南

kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件,主要由source.sink两部分组成,source部分完成hive表数据的读取任务,kafka-connect将这些数据写入到其他数据存储层中,比如hive到ES数据的流入.sink部分完成向hive表写数据的任务,kafka-connect将第三方数据源(如MySQL)里的数据读取并写入到hive表中. 在这里我使用的是landoop公司开发的kafka-connect-hive插件,项…

elasticsearch-hadoop使用

elasticsearch-hadoop是一个深度集成Hadoop和ElasticSearch的项目,也是ES官方来维护的一个子项目,通过实现Hadoop和ES之间的输入输出,可以在Hadoop里面对ES集群的数据进行读取和写入,充分发挥Map-Reduce并行处理的优势,为Hadoop数据带来实时搜索的可能. 项目网址:http://www.elasticsearch.org/overview/hadoop/ 运行环境: CDH4.ElasticSearch0.90.2 http://www.…

ElasticSearch之CURL操作

CURL的操作 curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求.简单的认为是可以在命令行下面访问url的一个工具.在centos的默认库里面是有curl工具的,如果没有请yum安装即可. curl -X 指定http的请求方法有HEAD GET POST PUT DELETE -d 指定要传输的数据 -H 指定http请求头信息浏览ES服务器 curl -XGET…

ElasticSearch之CURL操作（有空再去整理）

https://www.cnblogs.com/jing1617/p/8060421.html ElasticSearch之CURL操作 CURL的操作 curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求.简单的认为是可以在命令行下面访问url的一个工具.在centos的默认库里面是有curl工具的,如果没有请yum安装即可. curl -X 指定http的请求方法有HEAD GET POST PUT DELE…

《OD学spark》20160925 Spark Core

一.引言 Spark内存计算框架中国Spark技术峰会十二场演讲大数据改变世界,Spark改变大数据大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数据.处理数据分布式 Spark: 类似于MapReduce的另外一种分布式计算框架核心: 数据结构:RDD,集合List[T] MapReduce 最大的痛点: IO性能瓶颈,也是所有分布式计算框架的痛点 (1)磁盘IO, input(disk) -> map -> DISK(local)-&…

Flink系列之1.10版流式SQL应用

随着Flink 1.10的发布,对SQL的支持也非常强大.Flink 还提供了 MySql, Hive,ES, Kafka等连接器Connector,所以使用起来非常方便. 接下来咱们针对构建流式SQL应用文章的梗概如下: 1. 搭建流式SQL应用所需要的环境准备. 2. 构建一个按每小时进行统计购买量的应用. 3. 构建每天以10分钟的粒度进行统计应用. 4. 构建按分类进行排行,取出想要的结果应用. 1. 搭建流式应用所需要的环境准备 Kafka,用于将数据写入到Kafka中,然后Flink…

Oceanbase读写分离方案探索与优化

[作者] 许金柱,携程资深DBA,专注于分布式数据库研究及运维. 台枫,携程高级DBA,主要负责MySQL和OceanBase的运维. [前言] 读写分离,是一种将数据库的查询操作和写入操作分离的方案,目的是为了降低读写操作的相互影响并提升资源利用率.在携程,读写分离的应用场景非常普及,只读的业务场景主要包括线上业务的读请求.缓存的拉取,大数据ETL取数等. OceanBase 数据库天然支持读写分离的功能,即通过 OBProxy 代理服务和OBServer的配置修改即可实现业务的读…

开源数据质量解决方案——Apache Griffin入门宝典

提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧. 在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视. 还是那句话,商用版的解决方案暂时不在本文的讨论范围内,目前大数据流动公众号对于数据治理工具的研究还是在开源方向,希…

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) :

在hive命令行创建表时报错: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) : Specified key was too long; max key…

es与hive整合

在hive classpath中添加elasticsearch-hadoop.jar,以下方法任一种均可: 1.启动hiveserver2 前,在hive-site.xml文件中更改hive.aux.jars.path属性值 <property> <name>hive.reloadable.aux.jars.path</name> <value>/path/elasticsearch-hadoop.jar</value> <descript…

Hive创建HBase，ES外部表

1.创建HBase外部表 CREATE EXTERNAL TABLE `ods_women`( `rowkey` string COMMENT 'from deserializer', `article` string COMMENT 'from deserializer', `url` string COMMENT 'from deserializer', `web` string COMMENT 'from deserializer', `keyword` string COMMENT 'f…

Hive表数据同步到es

1.首先服务器节点,进入到对应的数据库.2. 然后找到要同步的表,show create table + 表名查看一下或者自己可以新建一个表,用来测试原表,如下 CREATE TABLE `wb_tmp`( `surface` string, `radiation` string, `loader_id` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS INPUTFORMAT 'org.apache.hadoop.m…

druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)——分析框架如hive或者redshift（MPPDB）、ES等

介绍我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/article/details/37594771 druid是个很新的平台, 2013年底才开源出来, 虽然出现的比较晚, 但druid发展很快, 中国有几个公司开始使用, 2015年druid将会是爆发的一…

Hive创建表格报【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】引发的血案

在成功启动Hive之后感慨这次终于没有出现Bug了,满怀信心地打了长长的创建表格的命令,结果现实再一次给了我一棒,报了以下的错误Error, return code 1 from org.apache.Hadoop.hive.ql.exec.DDLTask. MetaException,看了一下错误之后,先是楞了一下,接着我就发出感慨,自从踏上编程这条不归路之后,就没有一天不是在找Bug的路上就是在处理Bug,给自己贴了个标签:找Bug就跟吃饭一样的男人.抒发心中的感慨之后,该干活还是的干活.…

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)

CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,footer,header,hgroup,nav,section{display:block}audio,canvas,video{display:inline-block;*display:inline;*zoom:1}audio:not([controls]){display:none}html{…

【Hive on ES】的更多相关文章