Installation of CarbonData 1.1.0 with Spark 1.6.2

关键词：carbondata spark thrift 数据仓库

【Install thrift 0.9.3】

注意要装thrift-java必须先装ant 。

有人说要装boost，我在centos6上没有装一样可以运行，猜测可能是c/cpp需要，java/python的不需要

thrift安装包可以在thrift官网下载，注意版本，手动下载地址：http://www.apache.org/dyn/closer.cgi?path=/thrift/0.9.3。

sudo yum -y install ant libevent-devel zlib-devel openssl-devel

# Install bison

wget http://ftp.gnu.org/gnu/bison/bison-2.5.1.tar.gz

tar xvf bison-2.5..tar.gz

cd bison-2.5.

./configure --prefix=/usr

make

sudo make install

cd ..

# Install libevent

wget --no-check-certificate https://github.com/libevent/libevent/releases/download/release-2.0.22-stable/libevent-2.0.22-stable.tar.gz -O libevent-2.0.22-stable.tar.gz

tar -xzvf libevent-2.0.-stable.tar.gz

cd libevent-2.0.-stable

./configure --prefix=/usr

make

sudo make install

cd ..

# Install thrift
wget http://apache.parentingamerica.com/thrift/0.9.3/thrift-0.9.3.tar.gz

tar -xzvf thrift-0.9..tar.gz

cd thrift-0.9.

./configure --prefix=/usr --with-libevent=/usr --with-java

sudo make

sudo make install

cd ..

如果是其他语言的，首先得安装该语言的环境和其他相关的库。Java的需要jdk和ant。

【Package and Install CarbonData】

参考：https://github.com/apache/carbondata/tree/master/build

下载 carbondata 1.1.0，解压后在carbondata源码目录下执行 (同理其他spark版本改下profile和spark.version的参数即可)

mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6. clean package

maven下载速度慢的，可以用aliyun mirror替代apache central，修改 ~/.m2/settings.xml。

<settings>

  ...

  <mirrors>

    <mirror>

      <id>alimaven</id>

      <name>aliyun maven</name>

      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

      <mirrorOf>central</mirrorOf>

    </mirror>

  </mirrors>

  ...

</settings>

【Run carbondata in spark-shell】

参考：http://carbondata.apache.org/quick-start-guide.html

准备数据文件

# in linux , prepare data example file

cd carbondata

cat > sample.csv << EOF

id,name,city,age

,david,shenzhen,

,eason,shenzhen,

,jarry,wuhan,

EOF

hdfs dfs -put sample.csv /tmp/

准备assembly jar包

# in linux, copy assembly jar to a lib directory

cd $CARBONDATA_HOME

mkdir -p lib

cp assembly/target/scala-2.10/carbondata_2.-1.1.-shade-hadoop2.2.0.jar lib/

cp integration/spark/target/carbondata-spark-1.1..jar lib/

run spark in shell mode

spark-shell --jars $CARBONDATA_HOME/lib/carbondata_2.-1.1.-shade-hadoop2.2.0.jar,$CARBONDATA_HOME/lib/carbondata-spark-1.1..jar

SparkShell >

// in spark shell, cluster mode

import org.apache.spark.sql.CarbonContext

// remember to add hdfs:// if you want to use hdfs mode.

val cc = new CarbonContext(sc, "hdfs:///tmp/carbon/data/")

cc.sql("CREATE TABLE IF NOT EXISTS hdfs_sample ( id string, name string, city string, age Int) STORED BY 'carbondata'")

cc.sql("LOAD DATA INPATH 'hdfs:///tmp/sample.csv' INTO TABLE hdfs_sample")

cc.sql("SELECT * FROM hdfs_sample").show()

cc.sql("SELECT city, avg(age), sum(age) FROM hdfs_sample GROUP BY city").show()

Installation of CarbonData 1.1.0 with Spark 1.6.2的更多相关文章

基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...
yarn 0.9.0 build spark
1. 下载scala并安装.版本为2.10.3.设置SCALA_HOME和PATH环境变量 2. 下载SPARK 0.9.0源代码并解压到/root/Downloads/spark-0.9.0-inc ...
Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)
随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握Hadoop技术的开发 ...
Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)
就在昨天,北京时间5月30日20点多.Spark 1.0.0最终公布了:Spark 1.0.0 released 依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Progr ...
初识Spark2.0之Spark SQL
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...
spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
Xtreme9.0 - Car Spark 动态规划
Car Spark 题目连接: https://www.hackerrank.com/contests/ieeextreme-challenges/challenges/car-spark Descr ...
Spark2.0 VS Spark 1.* -------SparkSession的区别
Spark .0以前版本: val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkCont ...
hadoop 2.6.0 分布式 + Spark 1.1.0 集群环境
配置jdk 执行 sudo apt-get install openjdk-7-jdk jdk被安装到了 /usr/lib/jvm/ 目录配置hosts 使用 vim 打开 /etc/hosts, ...

随机推荐

org.hibernate.ObjectNotFoundException: No row with the given identifier exists解决办法
hibernate-取消关联外键引用数据丢失抛异常的设置@NotFound hibernate项目里面配了很多many-to-one的关联,后台在查询数据时已经作了健全性判断,但还是经常抛出对象找不到 ...
NSE: known a priori estimate
1. Leray-Hopf $u\in L^\infty(0,T;L^2(\bbR^3))\cap L^2(0,T;H^1(\bbR^3))$. See [Leray, Jean. Sur le mo ...
Filebeat+ELK部署文档
在日常运维工作中,对于系统和业务日志的处理尤为重要.今天,在这里分享一下自己部署的Filebeat+ELK开源实时日志分析平台的记录过程,有不对的地方还望指出. 简单介绍: 日志主要包括系统日志.应用 ...
Shpinx在PHPCMS里的使用及配置
现在可以用最新版的Sphinx版本网址:http://sphinxsearch.com/downloads/release/ 我使用rpm方式: 下载RHEL/CentOS 6.x x86_64 R ...
spring+springMVC+mybatis简单整合
spring+springMVC+mybatis简单整合, springMVC框架是spring的子项目,所以框架的整合方式为,spring+Mybatis或springMVC+mybatis. 三大 ...
【转】史上最详细的Composer安装tp5教程
http://www.thinkphp.cn/topic/52362.html Composer安装tp5教程1.下载composer先介绍几个网站Composer官网https://getcompo ...
【汇总目录】Java
疯狂Java学习笔记 [2019年03月20日] Lambda表达式与函数式接口 [2019年03月20日] Lambda表达式概念与基本语法 [2019年03月18日] 内部类 [2019年02月1 ...
mybatis（入门级项目）
框架的搭建:(两个java类,两个xml配置文件) 1.导入jar包,日志debug文件以及数据库的参数文件 2.建立持久化类(和数据库的列值相同的类) user类的一个扩展类: userQueryV ...
MyBatis联表查询
MyBatis逆向工程主要用于单表操作,那么需要进行联表操作时,往往需要我们自己去写sql语句. 写sql语句之前,我们先修改一下实体类 Course.java: public class Cours ...
根据SQL_ID查询并杀会话
Oracle 根据SQL_ID查询并杀会话,清空执行计划缓冲池2018年09月06日 10:31:40 小学生汤米阅读数:4731. 查询最近五分钟内最高频次SQL,查看event select t ...

Installation of CarbonData 1.1.0 with Spark 1.6.2

Installation of CarbonData 1.1.0 with Spark 1.6.2的更多相关文章

随机推荐

热门专题