elasticsearch-hadoop使用示例

2024-10-21 14:21:03 原文

在elasticsearch-hadoop的具体使用中碰到了几个问题，有必要记录一下，避免下次遇到时又要重新研究。

利用spark读取es数据源的简单示例

import org.elasticsearch.spark.sql._

val esOptions = Map("es.nodes"->"192.168.1.2,192.168.1.3", "es.scroll.size"->"1000", "es.field.read.as.array.include"->"SampleField")

val esDF = sqlContext.read.format("org.elasticsearch.spark.sql").options(esOptions).load("sampleindex/es-spark")

esDF.registerTempTable("esdemotbl")

es.scroll.size 一次性读入的记录数，默认是10, 如果不设置为大一点的值，要从es中读取1亿条数据，那将是一个漫长的过程

es.field.read.as.array.include 有的字段在es中是以string类型存储，但其中包含逗号(,), spark默认认为这是数组类型，如果读取这种字段的话，就会报错，怎么办，那就用es.field.read.as.array.include来显式指明

spark读取es中数据的时候，partition数目取决于es中指定index的shard数目，为了获得比较高的并发读取性能，建议适当设置shard数目，为什么是适当，因为具体取决于集群规模等多种因素。

字段名的大小写问题

在hive中，字段名是_大小写不敏感_的, 但在ES中是大小写敏感的

你说，这又怎么样。呵呵，这意味着不做特殊处理，永远无法读出es中大写字段名的内容，你看到的将是满屏的_NULL_

这该怎么破，很简单，指定 es.mapping.names

比如在es中，字段名为DemoField, 要读出其中的内容，hive表的字义就该这样写

create external table es_demo_tbl(

demofield string)

STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'

TBLPROPERTIES('es.nodes'='192.168.1.2,192.168.1.3', 'es.resource'='demoindex/sample',

'es.mapping.names'='demofield:DemoField')

注意是先hive中的字段名，然后是es中的字段名

elasticsearch-hadoop使用示例的更多相关文章

Elasticsearch 邻近查询示例
Elasticsearch 邻近查询示例(全切分分词) JAVA API方式: SpanNearQueryBuilder span = QueryBuilders.spanNearQuery(); s ...
使用java如何操作elasticsearch？简单示例。
在线API:https://www.elastic.co/guide/en/elasticsearch/client/java-api/2.4/transport-client.html教程:http ...
运行Hadoop的示例程序WordCount-Running Hadoop Example
In the last post we've installed Hadoop 2.2.0 on Ubuntu. Now we'll see how to launch an example ma ...
Java中ElasticSearch的删除示例
public class DeleteElasticAPI { private static RestClient restClient; static { restClient=RestClient ...
hadoop SequenceFile示例
1.写入,SequenceFile的key和value不一定是Writable,只要能被Serialization序列化和反序列化就可以. private static final String[] ...
elasticsearch 高级搜索示例 es7.0
基础数据创建索引 PUT mytest { "mappings": { "properties": { "title": { " ...
es第十篇：Elasticsearch for Apache Hadoop
es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce.hive.pig.cascading.spark)与es交互. A ...
Spring Boot + Elasticsearch 使用示例
本文分别使用 Elasticsearch Repository 和 ElasticsearchTemplate 实现 Elasticsearch 的简单的增删改查一.Elastic Stack El ...
Hadoop Map/Reduce 示例程序WordCount
#进入hadoop安装目录 cd /usr/local/hadoop #创建示例文件:input #在里面输入以下内容: #Hello world, Bye world! vim input #在hd ...
Hadoop vs Elasticsearch – Which one is More Useful
Hadoop vs Elasticsearch – Which one is More Useful Difference Between Hadoop and Elasticsearch H ...

随机推荐

Android 全局获取 Context 与使用 Intent 传递对象
=====================全局获取 Context======================== Android 开发中很多地方需要用到 Context,比如弹出 Toast.启动活 ...
python 字典的函数
clear(),清空注意单纯的赋值就相当于c语言中引用,只事额外起了一个别名,所以他们指向相同的地址, 所以令c={},只是另外开辟了一个新的空间让c为空,并没有改变之前的空间,所以{}与clear ...
(转)Java中使用Jedis操作Redis
转自http://www.cnblogs.com/liuling/p/2014-4-19-04.html 使用Java操作Redis需要jedis-2.1.0.jar,下载地址:http://file ...
对SIL9022/9024的配置
这里只是记录下对SIL9022.9024配置的I2C的数据,没有具体的程序.程序可以参考数据来做.程序官网也可能有. start of decoding Write to 0x72 0xBC ? 0x ...
button按钮
button按钮只加类名不加type时,点击此按钮页面会刷新
PHP实现四种基本排序算法
前提:分别用冒泡排序法,快速排序法,选择排序法,插入排序法将下面数组中的值按照从小到大的顺序进行排序. $arr(1,43,54,62,21,66,32,78,36,76,39); 1. 冒泡排序思 ...
C# 显示问题
【使用Unity开发Windows Phone上的2D游戏】（2）初识工具
下载工具我们需要下载两个工具:Unity 和 2D Toolkit Unity 在我写这篇文章的时候,最新的Unity版本是4.2.1, 下载地址 Unity公司的开发效率实在是很高,我一个多月前开 ...
三言两语之微信小程序开发初体验(1)
一.前情直接切入主题,微信发布了小程序,前端开发者表示,如果不会微信小程序的开发感觉就跟不上时代了,先解答几个容易出现歧义的问题小程序就叫小程序,不叫应用号,因为apple不准,哈哈小程序是 ...
redis数据类型之—List
(1)list 简单介绍 list是一个有序的字符串列表,是使用双向列表实现的,可以实现最新消息排行.消息队列等功能. (2) list 常用命令