spark1.0.2读取hbase（CDH0.96.1）上的数据

基本环境: 我是在win7环境下,spark1.0.2,HBase0.9.6.1 使用工具:IDEA14.1, scala 2.11.6, sbt.我现在是测试环境使用的是单节点 1.使用IDEA创建一个sbt的工程后,在build.sbt文件加入配置文件 libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.0.2" % "provided" l…

Android使用OpenGL ES2.0显示YUV，您的手机上的数据要解决两个方面的坐标

如果说 ,我不知道,如果你不明白这个话题.连接到:http://blog.csdn.net/wangchenggggdn/article/details/8896453(下称链接①), 里面评论有非常多人提到了这个问题,我也是当中一员,可是问遍了全部人,自己也发帖(http://bbs.csdn.net/topics/390769358) 寻求解决方式,却终究没能得到一个可用的方案. 从2014年4月中旬遇到这个问题.纠结了两个多星期,最终在看了好多好多资料之后.于4月的最后一个周一,临时攻克了…

Spark 读取HBase和SolrCloud数据

Spark1.6.2读取SolrCloud 5.5.1 //httpmime-4.4.1.jar // solr-solrj-5.5.1.jar //spark-solr-2.2.2-20161007.041156-1-shaded.jar val sparkConf = new SparkConf() .setAppName("Test") // 创建 spark context val sc = new SparkContext(sparkConf) val sqlContext…

Spark 读取HBase数据

Spark1.6.2 读取 HBase 1.2.3 //hbase-common-1.2.3.jar //hbase-protocol-1.2.3.jar //hbase-server-1.2.3.jar //htrace-core-3.1.0-incubating.jar //metrics-core-2.2.0.jar val sparkConf = new SparkConf() .setAppName("User") // 创建 spark context val sc = n…

Spark-1.0.0 standalone分布式安装教程

Spark目前支持多种分布式部署方式:一.Standalone Deploy Mode:二Amazon EC2.:三.Apache Mesos:四.Hadoop YARN.第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上. 除了部署的多种方式之外,较新版本的Spark支持多种hadoop平台,比如从0.8.1版本开始分别支持Hadoop 1 (HDP1, CDH3).CDH4.Hadoop 2 (HDP2, CDH5).目前Cloudera公司的…

SparkSQL读取HBase数据

这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler . 环境篇 hadoop-2.3.0-cdh5.0.0 apache-hive-0.13.1-bin spark-1.4.0-bin-hadoop2.3 hbase-0.96.1.1-cdh5.0.0 部署情况如下图: 测试集群,将Spark Worker部署在每台Dat…

Spark1.0.0 编程模型

Spark Application能够在集群中并行执行,其关键是抽象出RDD的概念(详见RDD 细解),也使得Spark Application的开发变得简单明了.下图浓缩了Spark的编程模型. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYm9va19tbWlja3k=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="&qu…

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Scala版本如下: val myRDD= sc.parallelize(List(1,2,3)) 这种方式很简单,很容易就可以将一个集合中的数据变成RDD的初始化值:更常见的是(2).从文本中读取数据…

Spark1.0新特性-->Spark SQL

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译. Spark SQL是支持在Spark中使用Sql.HiveSql.Scaca中的关系型查询表达式.它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数…

ubuntu12.04+hadoop2.2.0+zookeeper3.4.5+hbase0.96.2+hive0.13.1伪分布式环境部署

目录: 一.hadoop2.2.0.zookeeper3.4.5.hbase0.96.2.hive0.13.1都是什么? 二.这些软件在哪里下载? 三.如何安装 1.安装JDK 2.用parallels克隆3台机器 3.安装Zookeeper-3.4.5 4.安装hadoop2.2.0 5.启动zookeeper 6.启动JournalNode集群 7.Hbase-0.96.2-hadoop2(启动双HMaster的配置,m1是主HMaster,m2是从HMaster) 8.在ubuntu12.…

Spark1.0.x入门指南

1 节点说明 IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNode,Master,Worker 192.168.1.113 DataNode,Master,Worker 192.168.1.114 DataNode,Worker HDFS集群和Spark集群之间节点共用. 2 安装HDFS 见HDFS2.X和Hive的安装部署文档:http://www.cnblogs.com/Scott007/p/3614960…

Spark1.0.0 属性配置

1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,而且能够单独为每一个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式能够直接将属性值传递到SparkContext: SparkConf能够对某些通用属性直接配置,如master使用setMaster,appname使用setAppName: 也能够使用set()方法对属性进行键-值对配置,如set("spark.execu…

Spark1.0.0 学习路径

2014-05-30 Spark1.0.0 Relaease 经过11次RC后最终公布.尽管还有不少bug,还是非常令人振奋. 作为一个骨灰级的老IT,经过非常成一段时间的消沉,再次被点燃激情,决定近几年内投入Spark的队伍.去见证Spark的不断强大.在最初的阶段,将作为Spark的布道者,宣传和介绍Spark,最终将选择某一个方向,深入研究和编写代码. 随着国家对软件安全的重视.,看看这几天股市中软件股的表现.能够预见,在今后非常长一段时间内,开源软件将越来越受到重…

spark大批量读取Hbase时出现java.lang.OutOfMemoryError: unable to create new native thread

这个问题我去网上搜索了一下,发现了很多的解决方案都是增加的nproc数量,即用户最大线程数的数量,但我修改了并没有解决问题,最终是通过修改hadoop集群的最大线程数解决问题的. 并且网络上的回答多数关于增加nproc的答案不完整,我这里顺便记录一下. 用户最大线程数可以通过linux下的命令 ulimit -a 查看,屏幕输出中的max user processes就是用户最大线程数,默认通常为1024. 修改这个参数的地方是在/etc/security/limits.conf以及/etc/s…

关于mapreducer 读取hbase数据存入mysql的实现过程

mapreducer编程模型是一种八股文的代码逻辑,就以用户行为分析求流存率的作为例子 1.map端来说:必须继承hadoop规定好的mapper类:在读取hbase数据时,已经有现成的接口 TableMapper,只需要规定输出的key和value的类型 public class LoseUserMapper extends TableMapper<KeyStatsDimension, Text> { //////////省去代码在执行map方法前会执行setup方法,在流失率的时候比如…

Spark1.0.0属性配置

1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext: SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName: 也可以使用set()方法对属性进行键-值对配置,如set("spark.executor.memory&qu…

spark1.0属性配置以及spark-submit简单使用

在spark1.0中属性支持三种配置方式: 1.代码在代码中构造SparkConf时指定master.appname或者key-value等 val conf = new SparkConf(); conf.setAppName("WordCount").setMaster(" spark://hadoop000:7077") val sc = new SparkContext(conf) val conf = new SparkConf(); conf.set(…

Spark1.0.0 生态圈一览

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD. 通过Spark生态圈,AMPLab运用大数据.云计算.通信等各种资源,以及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为实用的信息.以供人们更好的理解世界.Spark生态圈已经涉及到机器学…

Spark1.0.0 学习路线指导

转自:http://www.aboutyun.com/thread-8421-1-1.html 问题导读1.什么是spark?2.spark编程模型是什么?3.spark运维需要具有什么知识?4.spark如何监控?5.如何搭建开发spark? 2014-05-30 Spark1.0.0 Relaease 经过11次RC后终于发布,虽然还有不少bug,还是很令人振奋.作为一个骨灰级的老IT,经过很成一段时间的消沉,再次被点燃激情,决定近几年内投入Spark的队伍,去见证Spark的不断强大.在最…

Spark1.0.0 history server 配置

在执行Spark应用程序的时候,driver会提供一个webUI给出应用程序的执行信息.可是该webUI随着应用程序的完毕而关闭port,也就是说,Spark应用程序执行完后,将无法查看应用程序的历史记录.Spark history server就是为了应对这样的情况而产生的.通过配置,Spark应用程序在执行完应用程序之后,将应用程序的执行信息写入指定文件夹.而Spark history server能够将这些执行信息装载并以web的方式供用户浏览. 要使用history serv…

使用MapReduce读取HBase数据存储到MySQL

Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; import org.apache.hadoop.hbase.ma…

使用TableSnapshotInputFormat读取Hbase快照数据

根据快照名称读取hbase快照中的数据,在网上查了好多资料,很少有资料能够给出清晰的方案,根据自己的摸索终于实现,现将代码贴出,希望能给大家有所帮助: public void read(org.apache.hadoop.conf.Configuration hadoopConf, Pipeline pipeline, ReaderParam readerParam, int batchSize) { limiter = RateLimiter.create(readerParam.getFet…