spark读写Sequoiadb

spark如何读写Sequoiadb,最近被客户问多了，这个记录下。

Spark读Sequoiadb数据：

package marketing

import com.sequoiadb.hadoop.io.BSONWritable

import com.sequoiadb.hadoop.mapreduce.SequoiadbInputFormat

import org.apache.hadoop.conf.Configuration

import org.apache.spark.{SparkContext, SparkConf}

/**

  * Created by joy on 2015/12/15.

  */

object Read extends App {

    val conf = new SparkConf().setAppName("cgbdata").

      setMaster("local").registerKryoClasses(Array(classOf[BSONWritable]))

    val sc = new SparkContext(conf)

    val hadoopConfig = new Configuration()

    hadoopConfig.set("sequoiadb.input.url","master:11810,slave1:11810,slave2:11810")

    hadoopConfig.set("sequoiadb.in.collectionspace","default")

    hadoopConfig.set("sequoiadb.in.collection","bar")

    val sdbRDD = sc.newAPIHadoopRDD[Object,BSONWritable,SequoiadbInputFormat](hadoopConfig,classOf[SequoiadbInputFormat],classOf[Object], classOf[BSONWritable])

    sdbRDD.map(_._2.getBson).collect.map(println)

    sc.stop()

}

Spark写Sequoiadb

package marketing

import com.sequoiadb.hadoop.io.BSONWritable

import com.sequoiadb.hadoop.mapreduce.SequoiadbOutputFormat

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.io.{NullWritable, IntWritable}

import org.apache.spark.{SparkConf, SparkContext}

import org.bson.BasicBSONObject

import org.bson.types.ObjectId

/**

 * Hello world!

 *

 */

object Save extends App {

  val sparkconf = new SparkConf().setMaster("local[2]").setAppName("save").registerKryoClasses(Array(classOf[BSONWritable]))

  val sc = new SparkContext(sparkconf)

  var data = sc.parallelize(List((NullWritable.get(),new BSONWritable(new BasicBSONObject("name","gaoxing")))))

  val config = new Configuration()

  config.set("sequoiadb.output.url","master:11810")

  config.set("sequoiadb.out.collectionspace","foo")

  config.set("sequoiadb.out.collection","bar")

  data.saveAsNewAPIHadoopFile("",classOf[NullWritable],classOf[BSONWritable],classOf[SequoiadbOutputFormat],config)

}

spark读写Sequoiadb的更多相关文章

Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...
使用Spark读写CSV格式文件（转）
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...
spark读写mysql
spark读写mysql除官网例子外还要指定驱动名称 travels.write .mode(SaveMode.Overwrite) .format("jdbc") .option ...
Spark读写ES
本文主要介绍spark sql读写es.structured streaming写入es以及一些参数的配置 ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spar ...
Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppN ...
spark读写hbase性能对比
一.spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入.spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDatas ...
Spark读写HBase时出现的问题--RpcRetryingCaller: Call exception
问题描述 Exception in thread "main" org.apache.hadoop.hbase.client.RetriesExhaustedException: ...

随机推荐

全局获取Context
1.定制一个Application类,管理全局的状态信息 public class MyApplication extends Application{ private static Context ...
阻塞队列之三：SynchronousQueue同步队列阻塞算法的3种实现
一.SynchronousQueue简介 Java 6的并发编程包中的SynchronousQueue是一个没有数据缓冲的BlockingQueue,生产者线程对其的插入操作put必须等待消费者的移除 ...
PHP 循环删除无限分类子节点
<?php private function _deleteSubNode($ids){ $subNodes = array(); $mod = D('Node'); foreach (expl ...
jdk ssl证书
JAVA线程分析定位排查
java开发中有的时间经常遇到某个线程消耗CPU高的问题,但是不清楚这个线程在做什么. 于是网上看了一些文章,找到了一个比较靠谱的办法(Linux下,Windows同理) : 首先使用top确认是否消 ...
yum问题的解决办法
关于使用yum“The program package-cleanup is...”的解决办法在使用yum 时总是有提示信息: The program package-cleanup is f ...
Ubuntu 下安装 hadoop（转+修改）
出于需要在电脑上安装hadoop,版本:hadoop 1.2.1 (stable) 按照网上教程安装成功,把一点需要修改的地方说说. 参考博客: ubuntu12.04 hadoop单机模式和伪分布模 ...
CentOS 修改源为163和指定epel源和docker安装
首先备份/etc/yum.repos.d/CentOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-B ...
maven引入源码
选中要添加的源码的项目右键-->debug--->debugs-configurations-->source-->java project
Ubuntu TIP
recovery进系统硬盘是挂载为“只读”的,要想改文件需要remount / 并且添加“w”(写权限). 进一次crub,再root进入折腾几次似乎就可以编辑磁盘上的文件了

spark读写Sequoiadb

spark读写Sequoiadb的更多相关文章

随机推荐

热门专题