Installation of CarbonData 1.1.0 with Spark 1.6.2
关键词:carbondata spark thrift 数据仓库
【Install thrift 0.9.3】
注意 要装thrift-java必须先装ant 。
有人说要装boost,我在centos6上没有装一样可以运行,猜测可能是c/cpp需要,java/python的不需要
thrift安装包可以在thrift官网下载,注意版本,手动下载地址:http://www.apache.org/dyn/closer.cgi?path=/thrift/0.9.3。
sudo yum -y install ant libevent-devel zlib-devel openssl-devel # Install bison
wget http://ftp.gnu.org/gnu/bison/bison-2.5.1.tar.gz
tar xvf bison-2.5..tar.gz
cd bison-2.5.
./configure --prefix=/usr
make
sudo make install
cd .. # Install libevent
wget --no-check-certificate https://github.com/libevent/libevent/releases/download/release-2.0.22-stable/libevent-2.0.22-stable.tar.gz -O libevent-2.0.22-stable.tar.gz
tar -xzvf libevent-2.0.-stable.tar.gz
cd libevent-2.0.-stable
./configure --prefix=/usr
make
sudo make install
cd .. # Install thrift
wget http://apache.parentingamerica.com/thrift/0.9.3/thrift-0.9.3.tar.gz
tar -xzvf thrift-0.9..tar.gz
cd thrift-0.9.
./configure --prefix=/usr --with-libevent=/usr --with-java
sudo make
sudo make install
cd ..
如果是其他语言的,首先得安装该语言的环境和其他相关的库。Java的需要jdk和ant。
【Package and Install CarbonData】
参考:https://github.com/apache/carbondata/tree/master/build
下载 carbondata 1.1.0,解压后在carbondata源码目录下执行 (同理其他spark版本改下profile和spark.version的参数即可)
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6. clean package
maven下载速度慢的,可以用aliyun mirror替代apache central,修改 ~/.m2/settings.xml。
<settings>
...
<mirrors>
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
</mirrors>
...
</settings>
【Run carbondata in spark-shell】
参考:http://carbondata.apache.org/quick-start-guide.html
准备数据文件
# in linux , prepare data example file
cd carbondata
cat > sample.csv << EOF
id,name,city,age
,david,shenzhen,
,eason,shenzhen,
,jarry,wuhan,
EOF hdfs dfs -put sample.csv /tmp/
准备assembly jar包
# in linux, copy assembly jar to a lib directory
cd $CARBONDATA_HOME
mkdir -p lib
cp assembly/target/scala-2.10/carbondata_2.-1.1.-shade-hadoop2.2.0.jar lib/
cp integration/spark/target/carbondata-spark-1.1..jar lib/
run spark in shell mode
spark-shell --jars $CARBONDATA_HOME/lib/carbondata_2.-1.1.-shade-hadoop2.2.0.jar,$CARBONDATA_HOME/lib/carbondata-spark-1.1..jar
SparkShell >
// in spark shell, cluster mode
import org.apache.spark.sql.CarbonContext // remember to add hdfs:// if you want to use hdfs mode.
val cc = new CarbonContext(sc, "hdfs:///tmp/carbon/data/")
cc.sql("CREATE TABLE IF NOT EXISTS hdfs_sample ( id string, name string, city string, age Int) STORED BY 'carbondata'")
cc.sql("LOAD DATA INPATH 'hdfs:///tmp/sample.csv' INTO TABLE hdfs_sample")
cc.sql("SELECT * FROM hdfs_sample").show()
cc.sql("SELECT city, avg(age), sum(age) FROM hdfs_sample GROUP BY city").show()
Installation of CarbonData 1.1.0 with Spark 1.6.2的更多相关文章
- 基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...
- yarn 0.9.0 build spark
1. 下载scala并安装.版本为2.10.3.设置SCALA_HOME和PATH环境变量 2. 下载SPARK 0.9.0源代码并解压到/root/Downloads/spark-0.9.0-inc ...
- Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)
随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发 ...
- Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)
就在昨天,北京时间5月30日20点多.Spark 1.0.0最终公布了:Spark 1.0.0 released 依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Progr ...
- 初识Spark2.0之Spark SQL
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...
- spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
- Xtreme9.0 - Car Spark 动态规划
Car Spark 题目连接: https://www.hackerrank.com/contests/ieeextreme-challenges/challenges/car-spark Descr ...
- Spark2.0 VS Spark 1.* -------SparkSession的区别
Spark .0以前版本: val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkCont ...
- hadoop 2.6.0 分布式 + Spark 1.1.0 集群环境
配置jdk 执行 sudo apt-get install openjdk-7-jdk jdk被安装到了 /usr/lib/jvm/ 目录 配置hosts 使用 vim 打开 /etc/hosts, ...
随机推荐
- python之路(2)集合(set)和字符串格式化
目录 集合(set) 字符串的格式化(%和format) 集合(set) {‘a’,'b','c','d','e'} 定义:有不同元素组成的集合,集合的元素为不可变类型(数字,字符串,元组),集合是一 ...
- 第一节: 结合EF的本地缓存属性来介绍【EF增删改操作】的几种形式
一. 背景 说起EF的增删改操作,相信很多人都会说,有两种方式:① 通过方法操作 和 ② 通过状态控制. 相信你在使用EF进行删除或修改操作的时候,可能会遇到以下错误:“ The object c ...
- Gram 矩阵与向量到子空间的距离
设 $W$ 是 $n$ 维 Euclidean 空间 $V$ 的子空间, $\beta\in V$, 定义 $\beta$ 到 $W$ 的距离 $$\bex \rd (\beta,W)=|\bet ...
- python:函数和循环判断
输出显示 先说一下最基础的输出: print('hello world') 唯一值得提到是字符串的format函数. format函数代替了C中的%s. print('{0} say:{0} {1}. ...
- BIO 和 NIO
一.阻塞(Block)和非阻塞(NonBlock) 阻塞和非阻塞是进程在访问数据的时候,数据是否准备就绪的一种处理方式,当数据没有准备的时候阻塞: 阻塞:往往需要等待缞冲区中的数据准备好过后才处理其他 ...
- 论文阅读笔记:《Contextual String Embeddings for Sequence Labeling》
文章引起我关注的主要原因是在CoNLL03 NER的F1值超过BERT达到了93.09左右,名副其实的state-of-art.考虑到BERT训练的数据量和参数量都极大,而该文方法只用一个GPU训了一 ...
- MySql常见约束
含义:一种限制,用于限制表中的数据,为了保证表中数据的准确性和可靠性. 分类:六大约束 1.NOT NULL :非空,用于保证该字段的值不能为空.例如学生表的学生姓名及学号等等. 2.DEFAULT: ...
- [Kubernetes]编排其实很简单
什么是编排 Kubernetes中,我们总是在说一个概念:编排. 在[Kubernetes]谈谈Kubernetes的本质这篇文章中,关于"编排"的概念介绍了一下:过去很多集群管理 ...
- 帆软报表(finereport) 复选框多值查询
定义数据集 SELECT * FROM 库存 设计模板 设置控件:控件名称 XX 要与 单元格中 取值公式 =$XX 对应,控件值可更改 下拉复选框控件: 设置控件名称(与模板中=$选仓库 ...
- Vofuria ARCamera相机问题
想要发射 射线 Camera.allCameras[0] 该语句来选择相机:Camera.main 此语句只能找到Tag为MainCamera的相机: