自定义Spark Partitioner提升es-hadoop Bulk效率

http://www.jianshu.com/p/cccc56e39429/comments/2022782 和 https://github.com/elastic/elasticsearch-hadoop/issues/745 都有提到通过自定义Spark Partitioner提升es-hadoop Bulk效率，但是无可运行代码，自己针对其思路在spark-shell里实现了一份。

思路：

spark streming监控/tmp/data下的新文件，并将文中每行内容存储到ES的web/blog索引里！

注意：代码里使用了doc ID来定制路由，该id为自动生成的uuid！因此在启动ES后，需要：

curl -s -XPUT localhost:/web -d '

{

    "mappings": {

        "blog": {

            "_id": {

                "path": "uuid"

            },

            "properties": {

                "title": {

                    "type":   "string",

                    "index":  "analyzed"

                }

            }

        }

    }

}'

告诉ES使用blog document中的uuid字段作为_id。ES 2.0以后见 http://stackoverflow.com/questions/32334709/how-to-set-id-in-elasticsearch-2-0

下面是spark-shell代码：

import org.apache.spark._

import org.apache.spark.streaming._

import org.elasticsearch.spark._

import org.apache.spark.Partitioner

import org.elasticsearch.hadoop.cfg.PropertiesSettings

import org.elasticsearch.spark.cfg.SparkSettingsManager

import org.elasticsearch.hadoop.cfg.Settings

import org.elasticsearch.hadoop.rest.RestRepository

import scala.collection.JavaConversions._

// 为方便测试，下面是自己用scala实现的es hash函数

// 尤其注意：在生产环境下，使用ES jar包里的函数，位置为：

// https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/cluster/routing/Murmur3HashFunction.java

object Murmur3HashFunction {

  def hash(routing: String): Int = {

    val bytesToHash = Array.ofDim[Byte](routing.length * 2)

    for (i <- 0 until routing.length) {

      val c = routing.charAt(i)

      val b1 = c.toByte

      val b2 = (c >>> 8).toByte

      assert(((b1 & 0xFF) | ((b2 & 0xFF) << 8)) == c)

      bytesToHash(i * 2) = b1

      bytesToHash(i * 2 + 1) = b2

    }

    hash(bytesToHash, 0, bytesToHash.length)

  }

  def hash(bytes: Array[Byte], offset: Int, length: Int): Int = {

    murmurhash3_x86_32(bytes, offset, length, 0)

  }

  def murmurhash3_x86_32(data: Array[Byte],

      offset: Int,

      len: Int,

      seed: Int): Int = {

    val c1 = 0xcc9e2d51

    val c2 = 0x1b873593

    var h1 = seed

    val roundedEnd = offset + (len & 0xfffffffc)

    var i = offset

    while (i < roundedEnd) {

      var k1 = (data(i) & 0xff) | ((data(i + 1) & 0xff) << 8) | ((data(i + 2) & 0xff) << 16) |

        (data(i + 3) << 24)

      k1 *= c1

      k1 = (k1 << 15) | (k1 >>> 17)

      k1 *= c2

      h1 ^= k1

      h1 = (h1 << 13) | (h1 >>> 19)

      h1 = h1 * 5 + 0xe6546b64

      i += 4

    }

    var k1 = 0

    len & 0x03 match {

      case 3 => k1 = (data(roundedEnd + 2) & 0xff) << 16

      case 2 => k1 |= (data(roundedEnd + 1) & 0xff) << 8

      case 1 =>

        k1 |= (data(roundedEnd) & 0xff)

        k1 *= c1

        k1 = (k1 << 15) | (k1 >>> 17)

        k1 *= c2

        h1 ^= k1

      case _ => //break

    }

    h1 ^= len

    h1 ^= h1 >>> 16

    h1 *= 0x85ebca6b

    h1 ^= h1 >>> 13

    h1 *= 0xc2b2ae35

    h1 ^= h1 >>> 16

    h1

  }

}

// 自定义Partitioner

class ESShardPartitioner(settings: String) extends Partitioner {

      protected var _numPartitions = -1

      override def numPartitions: Int = {

        val newSettings = new PropertiesSettings().load(settings)

        // 生产环境下，需要自行设置索引的 index/type，我是以web/blog作为实验的index

        newSettings.setResourceRead("web/blog") // ******************** !!! modify it !!! ********************

        newSettings.setResourceWrite("web/blog") // ******************** !!! modify it !!! ********************

        val repository = new RestRepository(newSettings)

        val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly())

        repository.close()

        _numPartitions = targetShards.size()

        _numPartitions

      } 

      override def getPartition(docID: Any): Int = {

        var shardId = Murmur3HashFunction.hash(docID.toString()) % _numPartitions;

        if (shardId < 0) {

            shardId += _numPartitions;

        }

        shardId

      }

}

sc.getConf.setMaster("local").setAppName("RDDTest").set("es.nodes", "127.0.0.1").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("es.index.auto.create", "true");

val ssc = new StreamingContext(sc, Seconds(2));

val fileStream = ssc.textFileStream("/tmp/data");

fileStream.foreachRDD { rdd => {

    def makeItem(content: String) : (String, Map[String,String]) = {

        val uuid = java.util.UUID.randomUUID.toString();

        (uuid, Map("content"->content, "uuid"->uuid))

    }

    println("********************start*************************");

    var r2 = rdd.map(makeItem);

    val sparkCfg = new SparkSettingsManager().load(rdd.sparkContext.getConf)

    val settings = sparkCfg.save();

    var r3 = r2.partitionBy(new ESShardPartitioner(settings));

    r3.map(x=>x._2).saveToEs("web/blog")

    println("data count: " + rdd.count.toString);

    println("*********************end************************");

}};

ssc.start();

ssc.awaitTermination();

运行方法：

./spark-shell --jars ../lib/elasticsearch-spark-1.2_2.10-2.1.2.jar

然后在spark shell里运行上述代码。

通过shell 伪造数据：

mkdir /mmp/data

#rm -rf  /tmp/ ata"

rm -f "/tmp/data/*"

for ((j=;j<;j++)); do

        {

        for ((i=;i<;i++)); do

        file_name=`python -c 'import random;print random.random()'`

        echo "$j $i is sad story." >"/tmp/data/$file_name.log"

        done

        sleep

        }

done

echo "OK, waiting..."

echo "done"

运行上述脚本，看到spark shell里显示：

见http://www.cnblogs.com/bonelee/p/6078956.html ES路由底层实现！

自定义Spark Partitioner提升es-hadoop Bulk效率的更多相关文章

自定义Spark Partitioner提升es-hadoop Bulk效率——续
对于es 2.4版本,要能定制spark partitioner需要如下方式启动spark shell: spark-2.0.0-bin-hadoop2.6/bin/spark-shell --jar ...
Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...
提升 Hive Query 执行效率 - Hive LLAP
从 Hive 刚推出到现在,得益于社区对它的不断贡献,使得 Hive执行 query 效率显著提升.其中比较有代表性的功能如 Tez (将多个 job整合为一个DAG job)以及 CBO(Cost- ...
提升你的开发效率，10 个 NPM 使用技巧
对于一个项目,常用的一些npm简单命令包含的功能有:初始化一个文件夹(npm init),下载npm模块(npm install),创建测试(npm test) 和自定义脚本(npm run).但是, ...
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结 1. 主流编程中三个最糟糕的问题 1 1.1. 从理解问题后到实现的时间很长 1 1.2. 理解和维护代码 2 1.3. 学 ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...
面试系列九 es 提高查询效率
,es性能优化是没有什么银弹的,啥意思呢?就是不要期待着随手调一个参数,就可以万能的应对所有的性能慢的场景.也许有的场景是你换个参数,或者调整一下语法,就可以搞定,但是绝对不是所有场景都可以这样. 一 ...
分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率
摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率当场景中有比较复杂的模型时,条件渲染能够加速对复杂模型的渲染. 条件渲染(Conditio ...

随机推荐

C++设计模式之 “组件协作”模式：Template Method、Strategy、Observer
“组件协作”模式: #现代软件专业分工之后的第一个结果是“框架与应用程序的划分”,“组件协作”模式通过晚期绑定,来实现框架与应用程序之间的松耦合,是二者之间协作时常用的模式. #典型模式: Templ ...
Python3基础 file for+文件指针读取txt文本并一行一行的输出（高效率）
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
主引导记录MBR的结构和作用
MBR磁盘分区都有一个引导扇区,称为主引导记录,英文简称为MBR.1. MBR的结构MBR扇区位于整个硬盘的第一个扇区:按照C/H/S地址描述,即0柱面〇磁头1扇区:按照LBA地址描述即0扇区.它是 ...
在线js编程网站精品版
https://jsfiddle.net/ 引自:http://www.ykmimi.com/tools.html
Spring报NoSuchBeanDefinitionException
org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type 上述可以看出Ac ...
python enumerate用法总结--转载
enumerate()说明 enumerate()是python的内置函数 enumerate在字典上是枚举.列举的意思对于一个可迭代的(iterable)/可遍历的对象(如列表.字符串),enum ...
提高Intellij创建Maven工程的速度
按照默认的方式创建Maven工程的时候会发现Maven插件加载的很慢如下解决方法:在创建的过程中,在Properties中添加一个参数archetypeCatalog=internal . 因为ar ...
【BZOJ】4012: [HNOI2015]开店
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=4012 给出一个$n$个点的树,树上每一个点都有一个值$age$,每条边都有边权,每次查询一 ...
python 重复元素排序
def counting_sort(array1, max_val): m = max_val + count = [] * m for a in array1: # count occurences ...
jenkins定时构建示例
项目:使用git+jenkins实现持续集成开始构建 General 源码管理我们安装的是git插件,还可以安装svn插件我们将git路径存在这里还需要权限认证,否则会出现error 我们添加一 ...

自定义Spark Partitioner提升es-hadoop Bulk效率

自定义Spark Partitioner提升es-hadoop Bulk效率的更多相关文章

随机推荐

热门专题