关键词:carbondata spark thrift 数据仓库

【Install thrift 0.9.3】

注意 要装thrift-java必须先装ant 。

有人说要装boost,我在centos6上没有装一样可以运行,猜测可能是c/cpp需要,java/python的不需要

thrift安装包可以在thrift官网下载,注意版本,手动下载地址:http://www.apache.org/dyn/closer.cgi?path=/thrift/0.9.3

sudo yum -y install ant libevent-devel zlib-devel openssl-devel

# Install bison
wget http://ftp.gnu.org/gnu/bison/bison-2.5.1.tar.gz
tar xvf bison-2.5..tar.gz
cd bison-2.5.
./configure --prefix=/usr
make
sudo make install
cd .. # Install libevent
wget --no-check-certificate https://github.com/libevent/libevent/releases/download/release-2.0.22-stable/libevent-2.0.22-stable.tar.gz -O libevent-2.0.22-stable.tar.gz
tar -xzvf libevent-2.0.-stable.tar.gz
cd libevent-2.0.-stable
./configure --prefix=/usr
make
sudo make install
cd .. # Install thrift
wget http://apache.parentingamerica.com/thrift/0.9.3/thrift-0.9.3.tar.gz
tar -xzvf thrift-0.9..tar.gz
cd thrift-0.9.
./configure --prefix=/usr --with-libevent=/usr --with-java
sudo make
sudo make install
cd ..

如果是其他语言的,首先得安装该语言的环境和其他相关的库。Java的需要jdk和ant。

【Package and Install CarbonData】

参考:https://github.com/apache/carbondata/tree/master/build

下载 carbondata 1.1.0,解压后在carbondata源码目录下执行 (同理其他spark版本改下profile和spark.version的参数即可)

mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6. clean package

maven下载速度慢的,可以用aliyun mirror替代apache central,修改 ~/.m2/settings.xml。

<settings>
...
<mirrors>
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
</mirrors>
...
</settings>

【Run carbondata in spark-shell】

参考:http://carbondata.apache.org/quick-start-guide.html

准备数据文件

# in linux , prepare data example file
cd carbondata
cat > sample.csv << EOF
id,name,city,age
,david,shenzhen,
,eason,shenzhen,
,jarry,wuhan,
EOF hdfs dfs -put sample.csv /tmp/

准备assembly jar包

# in linux, copy assembly jar to a lib directory
cd $CARBONDATA_HOME
mkdir -p lib
cp assembly/target/scala-2.10/carbondata_2.-1.1.-shade-hadoop2.2.0.jar lib/
cp integration/spark/target/carbondata-spark-1.1..jar lib/

run spark in shell mode

spark-shell --jars $CARBONDATA_HOME/lib/carbondata_2.-1.1.-shade-hadoop2.2.0.jar,$CARBONDATA_HOME/lib/carbondata-spark-1.1..jar

SparkShell >

// in spark shell, cluster mode
import org.apache.spark.sql.CarbonContext // remember to add hdfs:// if you want to use hdfs mode.
val cc = new CarbonContext(sc, "hdfs:///tmp/carbon/data/")
cc.sql("CREATE TABLE IF NOT EXISTS hdfs_sample ( id string, name string, city string, age Int) STORED BY 'carbondata'")
cc.sql("LOAD DATA INPATH 'hdfs:///tmp/sample.csv' INTO TABLE hdfs_sample")
cc.sql("SELECT * FROM hdfs_sample").show()
cc.sql("SELECT city, avg(age), sum(age) FROM hdfs_sample GROUP BY city").show()

Installation of CarbonData 1.1.0 with Spark 1.6.2的更多相关文章

  1. 基于Spark1.3.0的Spark sql三个核心部分

    基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

  2. yarn 0.9.0 build spark

    1. 下载scala并安装.版本为2.10.3.设置SCALA_HOME和PATH环境变量 2. 下载SPARK 0.9.0源代码并解压到/root/Downloads/spark-0.9.0-inc ...

  3. Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)

    随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发 ...

  4. Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

    就在昨天,北京时间5月30日20点多.Spark 1.0.0最终公布了:Spark 1.0.0 released 依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Progr ...

  5. 初识Spark2.0之Spark SQL

    内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...

  6. spark2.3.0 配置spark sql 操作hive

    spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...

  7. Xtreme9.0 - Car Spark 动态规划

    Car Spark 题目连接: https://www.hackerrank.com/contests/ieeextreme-challenges/challenges/car-spark Descr ...

  8. Spark2.0 VS Spark 1.* -------SparkSession的区别

    Spark .0以前版本: val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkCont ...

  9. hadoop 2.6.0 分布式 + Spark 1.1.0 集群环境

    配置jdk 执行 sudo apt-get install openjdk-7-jdk jdk被安装到了 /usr/lib/jvm/ 目录 配置hosts 使用 vim 打开 /etc/hosts, ...

随机推荐

  1. React 记录(3)

    React文档:https://www.reactjscn.com/docs/hello-world.html 慢慢学习:对照教程文档,逐句猜解,截图 React官网:https://reactjs. ...

  2. ArcGis Classic COM Add-Ins插件开发的一般流程 C#

    COM add-ins是我对这种开发方式的称呼,Esri的官方文档里称其为“Extending ArcObject”或者“Classic COM extensibility”,Esri所称的addin ...

  3. 液晶流在齐次 Besov 空间中的正则性准则

    在 [Zhang, Zujin. Regularity criteria for the three dimensional Ericksen–Leslie system in homogeneous ...

  4. 2.5 elif

    elif 想一想: if能完成当xxx时做事情 if-else能完成当xxx时做事情1,否则做事情2 如果有这样一种情况:当xxx1满足时做事情1:当xxx1不满足.xxx2满足时做事情2:当xxx2 ...

  5. Jenkins--发送邮件配置

    使用Jenkins可以进行构建,并可以发送邮件.今天我们来讲一下邮件的配置. 首先:下载安装插件: 进入[Jenkins-系统管理-插件管理-可选插件],搜索“Email Extension”进行安装 ...

  6. 创建一个MongoDB数据库再到配置成Window服务再设置用户名密码

    1.安装MongoDB数据在官网下载安装 然后在C盘找到C:\Program Files\MongoDB\Server\4.0\bin这个可执行目录 使用cmd进入到这: 2.在C盘根目录创建一个名为 ...

  7. 萌新的IDEA_web开发笔记(未完)

    萌新IDEA_web开发笔记 按兴趣自己搞的网页: http://47.94.140.98:8080/ow_web/my_web/web/ 暂时还没做完. 部署在租的服务器上面,背景视频加载可能有点慢 ...

  8. torch画散点图

    import torch from torch.autograd import Variable import torch.nn.functional as F import matplotlib.p ...

  9. 搬运,B站up主『凉风有性胖次君』日日日日日日日日日日在校园

    这个视频超有毒,简直丧心病狂,我竟无言以对,凉风是有多大的耐性,搜集了这么多元素,哈哈哈~~~赶紧搬运,怕哪天B站都给封了 也就是说世界本来喜欢的是言叶,但是言叶爱上了一直在电车上暗恋她的诚哥,于是世 ...

  10. English 动词篇

    动词后加to do 和 doing的记忆口诀 一.只能用动名词(ing)作宾语 [口诀] 考虑建议盼原谅,承认推迟没得想. 避免错过继续练,否定完成停欣赏. 禁止想象才冒险,不禁介意弃逃亡. cons ...