自定义Spark Partitioner提升es-hadoop Bulk效率—

对于es 2.4版本，要能定制spark partitioner需要如下方式启动spark shell：

spark-2.0.0-bin-hadoop2.6/bin/spark-shell --jars elasticsearch-hadoop-5.0.1/dist/elasticsearch-spark-20_2.11-5.0.1.jar,elasticsearch-2.4.1/lib/elasticsearch-2.4.1.jar,elasticsearch-2.4.1/lib/lucene-core-5.5.2.jar

因为es 2.4的路由方式依赖es jar包里的murmurhash函数：

import org.apache.spark._

import org.apache.spark.streaming._

import org.elasticsearch.spark._

import org.apache.spark.Partitioner

import org.elasticsearch.hadoop.cfg.PropertiesSettings

import org.elasticsearch.spark.cfg.SparkSettingsManager

import org.elasticsearch.hadoop.cfg.Settings

import org.elasticsearch.hadoop.rest.RestRepository

import scala.collection.JavaConversions._

import org.elasticsearch.cluster.routing.Murmur3HashFunction;

import org.elasticsearch.common.math.MathUtils;

// 自定义Partitioner

class ESShardPartitioner(settings: String) extends org.apache.spark.Partitioner {

  protected var _numPartitions = -1;  

  override def numPartitions: Int = {

    val newSettings = new org.elasticsearch.hadoop.cfg.PropertiesSettings().load(settings);

    // 生产环境下，需要自行设置索引的 index/type，我是以web/blog作为实验的index

    newSettings.setResourceRead("web/blog"); // ******************** !!! modify it !!! ********************

    newSettings.setResourceWrite("web/blog"); // ******************** !!! modify it !!! ********************

    val repository = new org.elasticsearch.hadoop.rest.RestRepository(newSettings);

    val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly());

    repository.close();

    // targetShards ??? data structure

    _numPartitions = targetShards.size();

    println("********************numPartitions*************************");

    println(_numPartitions);

    _numPartitions;

  }

  override def getPartition(docID: Any): Int = {

    val _hashFunction = new org.elasticsearch.cluster.routing.Murmur3HashFunction;

    val r = _hashFunction.hash(docID.toString());

    val shardId = org.elasticsearch.common.math.MathUtils.mod(r, _numPartitions);

    println("********************shardId*************************");

    println(shardId)

    shardId;

  }

}

sc.getConf.setMaster("local").setAppName("RDDTest").set("es.nodes", "127.0.0.1").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("es.index.auto.create", "true");

val ssc = new StreamingContext(sc, Seconds(2));

val fileStream = ssc.textFileStream("/tmp/data");

fileStream.foreachRDD { rdd => {

    def makeItem(content: String) : (String, Map[String,String]) = {

        val uuid = java.util.UUID.randomUUID.toString();

        (uuid, Map("content"->content, "uuid"->uuid))

    }

    println("********************start*************************");

    println("********************default partition size*************************");

    println(rdd.partitions.size);

    var r2 = rdd.map(makeItem);

    val sparkCfg = new org.elasticsearch.spark.cfg.SparkSettingsManager().load(rdd.sparkContext.getConf)

    val settings = sparkCfg.save();

    var r3 = r2.partitionBy(new ESShardPartitioner(settings));

    // r3.map(x=>x._2).saveToEs("web/blog")

    println("********************changed partition size*************************");

    println(r3.partitions.size);

    r3.saveToEsWithMeta("web/blog")

    println("data count: " + rdd.count.toString);

    println("*********************end************************");

}};

ssc.start();

ssc.awaitTermination();

ES 其中一个机器的配置：

cluster.name: es_xxx

#cluster.name: es_single888

discovery.zen.ping.multicast.enabled: false

discovery.zen.ping.unicast.hosts: ["127.0.0.1:9300", "127.0.0.1:9301", "127.0.0.1:9302"]

#discovery.zen.ping.unicast.hosts: ["10.178.206.190:9300", "10.178.204.225:9300", "10.178.207.88:9300", "10.178.209.161:9300", "10.178.208.230:9300"]

network.host: 127.0.0.1

transport.tcp.port:

http.port:

index.refresh_interval: 30s

indices.memory.index_buffer_size: %

index.store.type: mmapfs

index.translog.flush_threshold_ops:

indices.store.throttle.type: none

index.legacy.routing.use_type: false

index.number_of_shards:

index.number_of_replicas:

自定义Spark Partitioner提升es-hadoop Bulk效率——续的更多相关文章

自定义Spark Partitioner提升es-hadoop Bulk效率
http://www.jianshu.com/p/cccc56e39429/comments/2022782 和 https://github.com/elastic/elasticsearch-ha ...
Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...
提升 Hive Query 执行效率 - Hive LLAP
从 Hive 刚推出到现在,得益于社区对它的不断贡献,使得 Hive执行 query 效率显著提升.其中比较有代表性的功能如 Tez (将多个 job整合为一个DAG job)以及 CBO(Cost- ...
提升你的开发效率，10 个 NPM 使用技巧
对于一个项目,常用的一些npm简单命令包含的功能有:初始化一个文件夹(npm init),下载npm模块(npm install),创建测试(npm test) 和自定义脚本(npm run).但是, ...
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结 1. 主流编程中三个最糟糕的问题 1 1.1. 从理解问题后到实现的时间很长 1 1.2. 理解和维护代码 2 1.3. 学 ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...
面试系列九 es 提高查询效率
,es性能优化是没有什么银弹的,啥意思呢?就是不要期待着随手调一个参数,就可以万能的应对所有的性能慢的场景.也许有的场景是你换个参数,或者调整一下语法,就可以搞定,但是绝对不是所有场景都可以这样. 一 ...
分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率
摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率当场景中有比较复杂的模型时,条件渲染能够加速对复杂模型的渲染. 条件渲染(Conditio ...

随机推荐

UVA10298 Power Strings
UVA10298 Power Strings hash+乘法逆元+一点点数学知识我们用取余法算出主串的hash,然后从小到大枚举子串的长度显然,如果若干个子串的复制的hash值之和等于主串的has ...
20145309李昊《网络对抗技术》实验9 web安全基础实践
本实验在同学帮助下完成一.实验准备 1.0 实验目标和内容 Web前端HTML.能正常安装.启停Apache.理解HTML,理解表单,理解GET与POST方法,编写一个含有表单的HTML. Web前 ...
20145324王嘉澜《网络对抗技术》web安全基础实践
实验内容 •使用webgoat进行XSS攻击.CSRF攻击.SQL注入实验问答 •SQL注入攻击原理,如何防御 ①SQL注入攻击是攻击者在web应用程序中事先定义好的查询语句的结尾上添加额外的SQL ...
20145329 《网络对抗技术》Web基础
实践目标 Web前端HTML 能正常安装.启停Apache.理解HTML,理解表单,理解GET与POST方法,编写一个含有表单的HTML. Web前端javascipt 理解JavaScript的基本 ...
Educational Codeforces Round 21 Problem D(Codeforces 808D)
Vasya has an array a consisting of positive integer numbers. Vasya wants to divide this array into t ...
github客户端上传代码
在window下安装github客户端上传代码第一步:创建Github新账户第二步:新建仓库第三步:安装Github shell程序,地址:http://windows.github.com/ ...
Python3基础 pickle.dump和load 对一个对象进行序列化存储及读取
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
PyQt5 - 01 使用qt creator创建第一个pyqt5界面程序
1. 安装Qt Creator qt creator下载点我 2. 利用Qt Creator创建界面点击文件 -> 新建文件或项目选择Qt -> Qt设计师界面类选择一个模版,创建一 ...
Pandas fillna('Missing')
https://blog.csdn.net/donghf1989/article/details/51167083/ .使用0替代缺失值(当然你可以用任意一个数字代替NaN) df.fillna(0) ...
aws相关文档
使用 IAM 角色授予对 Amazon EC2 上的 AWS 资源的访问权 https://docs.aws.amazon.com/zh_cn/sdk-for-java/v1/developer-gu ...

自定义Spark Partitioner提升es-hadoop Bulk效率——续

自定义Spark Partitioner提升es-hadoop Bulk效率——续的更多相关文章

随机推荐

热门专题