自定义Spark Partitioner提升es-hadoop Bulk效率
http://www.jianshu.com/p/cccc56e39429/comments/2022782 和 https://github.com/elastic/elasticsearch-hadoop/issues/745 都有提到通过自定义Spark Partitioner提升es-hadoop Bulk效率,但是无可运行代码,自己针对其思路在spark-shell里实现了一份。
思路:
spark streming监控/tmp/data下的新文件,并将文中每行内容存储到ES的web/blog索引里!
注意:代码里使用了doc ID来定制路由,该id为自动生成的uuid!因此在启动ES后,需要:
curl -s -XPUT localhost:/web -d '
{
"mappings": {
"blog": {
"_id": {
"path": "uuid"
},
"properties": {
"title": {
"type": "string",
"index": "analyzed"
}
}
}
}
}'
告诉ES使用blog document中的uuid字段作为_id。ES 2.0以后见 http://stackoverflow.com/questions/32334709/how-to-set-id-in-elasticsearch-2-0
下面是spark-shell代码:
import org.apache.spark._
import org.apache.spark.streaming._
import org.elasticsearch.spark._
import org.apache.spark.Partitioner
import org.elasticsearch.hadoop.cfg.PropertiesSettings
import org.elasticsearch.spark.cfg.SparkSettingsManager
import org.elasticsearch.hadoop.cfg.Settings
import org.elasticsearch.hadoop.rest.RestRepository
import scala.collection.JavaConversions._ // 为方便测试,下面是自己用scala实现的es hash函数
// 尤其注意:在生产环境下,使用ES jar包里的函数,位置为:
// https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/cluster/routing/Murmur3HashFunction.java
object Murmur3HashFunction {
def hash(routing: String): Int = {
val bytesToHash = Array.ofDim[Byte](routing.length * 2)
for (i <- 0 until routing.length) {
val c = routing.charAt(i)
val b1 = c.toByte
val b2 = (c >>> 8).toByte
assert(((b1 & 0xFF) | ((b2 & 0xFF) << 8)) == c)
bytesToHash(i * 2) = b1
bytesToHash(i * 2 + 1) = b2
}
hash(bytesToHash, 0, bytesToHash.length)
} def hash(bytes: Array[Byte], offset: Int, length: Int): Int = {
murmurhash3_x86_32(bytes, offset, length, 0)
} def murmurhash3_x86_32(data: Array[Byte],
offset: Int,
len: Int,
seed: Int): Int = {
val c1 = 0xcc9e2d51
val c2 = 0x1b873593
var h1 = seed
val roundedEnd = offset + (len & 0xfffffffc)
var i = offset
while (i < roundedEnd) {
var k1 = (data(i) & 0xff) | ((data(i + 1) & 0xff) << 8) | ((data(i + 2) & 0xff) << 16) |
(data(i + 3) << 24)
k1 *= c1
k1 = (k1 << 15) | (k1 >>> 17)
k1 *= c2
h1 ^= k1
h1 = (h1 << 13) | (h1 >>> 19)
h1 = h1 * 5 + 0xe6546b64
i += 4
}
var k1 = 0
len & 0x03 match {
case 3 => k1 = (data(roundedEnd + 2) & 0xff) << 16
case 2 => k1 |= (data(roundedEnd + 1) & 0xff) << 8
case 1 =>
k1 |= (data(roundedEnd) & 0xff)
k1 *= c1
k1 = (k1 << 15) | (k1 >>> 17)
k1 *= c2
h1 ^= k1
case _ => //break
}
h1 ^= len
h1 ^= h1 >>> 16
h1 *= 0x85ebca6b
h1 ^= h1 >>> 13
h1 *= 0xc2b2ae35
h1 ^= h1 >>> 16
h1
}
} // 自定义Partitioner
class ESShardPartitioner(settings: String) extends Partitioner {
protected var _numPartitions = -1 override def numPartitions: Int = {
val newSettings = new PropertiesSettings().load(settings)
// 生产环境下,需要自行设置索引的 index/type,我是以web/blog作为实验的index
newSettings.setResourceRead("web/blog") // ******************** !!! modify it !!! ********************
newSettings.setResourceWrite("web/blog") // ******************** !!! modify it !!! ********************
val repository = new RestRepository(newSettings)
val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly())
repository.close()
_numPartitions = targetShards.size()
_numPartitions
} override def getPartition(docID: Any): Int = {
var shardId = Murmur3HashFunction.hash(docID.toString()) % _numPartitions;
if (shardId < 0) {
shardId += _numPartitions;
}
shardId
}
} sc.getConf.setMaster("local").setAppName("RDDTest").set("es.nodes", "127.0.0.1").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("es.index.auto.create", "true");
val ssc = new StreamingContext(sc, Seconds(2));
val fileStream = ssc.textFileStream("/tmp/data"); fileStream.foreachRDD { rdd => {
def makeItem(content: String) : (String, Map[String,String]) = {
val uuid = java.util.UUID.randomUUID.toString();
(uuid, Map("content"->content, "uuid"->uuid))
}
println("********************start*************************");
var r2 = rdd.map(makeItem);
val sparkCfg = new SparkSettingsManager().load(rdd.sparkContext.getConf)
val settings = sparkCfg.save();
var r3 = r2.partitionBy(new ESShardPartitioner(settings));
r3.map(x=>x._2).saveToEs("web/blog")
println("data count: " + rdd.count.toString);
println("*********************end************************");
}}; ssc.start();
ssc.awaitTermination();
运行方法:
./spark-shell --jars ../lib/elasticsearch-spark-1.2_2.10-2.1.2.jar
然后在spark shell里运行上述代码。
通过shell 伪造数据:
mkdir /mmp/data
#rm -rf /tmp/ ata"
rm -f "/tmp/data/*"
for ((j=;j<;j++)); do
{
for ((i=;i<;i++)); do
file_name=`python -c 'import random;print random.random()'`
echo "$j $i is sad story." >"/tmp/data/$file_name.log"
done
sleep
}
done
echo "OK, waiting..."
echo "done"
运行上述脚本,看到spark shell里显示:

见http://www.cnblogs.com/bonelee/p/6078956.html ES路由底层实现!
自定义Spark Partitioner提升es-hadoop Bulk效率的更多相关文章
- 自定义Spark Partitioner提升es-hadoop Bulk效率——续
对于es 2.4版本,要能定制spark partitioner需要如下方式启动spark shell: spark-2.0.0-bin-hadoop2.6/bin/spark-shell --jar ...
- Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...
- 提升 Hive Query 执行效率 - Hive LLAP
从 Hive 刚推出到现在,得益于社区对它的不断贡献,使得 Hive执行 query 效率显著提升.其中比较有代表性的功能如 Tez (将多个 job整合为一个DAG job)以及 CBO(Cost- ...
- 提升你的开发效率,10 个 NPM 使用技巧
对于一个项目,常用的一些npm简单命令包含的功能有:初始化一个文件夹(npm init),下载npm模块(npm install),创建测试(npm test) 和自定义脚本(npm run).但是, ...
- atitit.提升软件开发的效率and 质量的那些强大概念and方法总结
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结 1. 主流编程中三个最糟糕的问题 1 1.1. 从理解问题后到实现的时间很长 1 1.2. 理解和维护代码 2 1.3. 学 ...
- Spark环境搭建(五)-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架 概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...
- 面试系列九 es 提高查询效率
,es性能优化是没有什么银弹的,啥意思呢?就是不要期待着随手调一个参数,就可以万能的应对所有的性能慢的场景.也许有的场景是你换个参数,或者调整一下语法,就可以搞定,但是绝对不是所有场景都可以这样. 一 ...
- 分布式协同AI基准测试项目Ianvs:工业场景提升5倍研发效率
摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...
- CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率 当场景中有比较复杂的模型时,条件渲染能够加速对复杂模型的渲染. 条件渲染(Conditio ...
随机推荐
- jquery的click无法触发事件
一个页面需要在加载后勾选table中所有行的checkbox,于是就这样写 $("table thead tr th input[type='checkbox']").click( ...
- 02: css常用属性
目录: 1.1 设置样式的七个选择器 1.2 css常见属性浅析 1.3 css布局中常用方法 1.1 设置样式的七个选择器返回顶部 1.其中选择器介绍 1. 直接在标签里的style标签写样式 2. ...
- Java中的三大框架分别有什么用
一.Spring Spring是一个解决了许多在J2EE开发中常见的问题的强大框架. Spring提供了管理业务对象的一致方法并且鼓励了注入对接口编程而不是对类编程的良好习惯.Spring的架构基础是 ...
- POJ 3694 Network(并查集缩点 + 朴素的LCA + 无向图求桥)题解
题意:给你一个无向图,有q次操作,每次连接两个点,问你每次操作后有几个桥 思路:我们先用tarjan求出所有的桥,同时我们可以用并查集缩点,fa表示缩点后的编号,还要记录每个节点父节点pre.我们知道 ...
- 【maven】在IDEA上 使用maven进行打包时报错:Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.10.3:jar
报错内容如下: [INFO] ------------------------------------------------------------------------ [INFO] BUILD ...
- JMeter -- Getting Started
https://jmeter.apache.org/usermanual/get-started.html 1.0 Overview When using JMeter you will usuall ...
- 51nod 1137 矩阵乘法
基本的矩阵乘法 中间for(int j=0;i<n;i++) //这里写错了 应该是j<n 晚上果然 效率不行 等会早点儿睡 //矩阵乘法 就是 两个矩阵 第一个矩阵的列 等与 第 ...
- Uncaught TypeError: $(...).daterangepicker is not a function
本文为博主原创,未经允许不得转载: 在用bootstrap做一个日期插件的时候,代码和js,css等都是拷贝网上下载下来的实例,但是在 调试的时候,浏览器控制台一直报错 Uncaught TypeEr ...
- 3G下的无压缩视频传输(基于嵌入式linux) (转载)
本课题研究嵌入式系统在数据采集,3G无线通信方面的应用,开发集视频采集.地理信息采集.无线传输.客户机/服务器模式于一体的车载终端,实现终端采集视频与GPS信息的传输,支持服务器端显示视频与GPS信息 ...
- hdu 5524 Subtrees dfs
Subtrees Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) Probl ...