【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界

前置要求：

1）Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+

2）export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

mvn编译命令：

./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

前提：需要对maven有一定的了解(pom.xml)

<hadoop.version>2.2.0</hadoop.version>

<protobuf.version>2.5.0</protobuf.version>

<yarn.version>${hadoop.version}</yarn.version>

</properties>

<id>hadoop-2.6</id>

<hadoop.version>2.6.4</hadoop.version>

<jets3t.version>0.9.3</jets3t.version>

<zookeeper.version>3.4.6</zookeeper.version>

<curator.version>2.6.0</curator.version>

</properties>

</profile>

./build/mvn -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package

#推荐使用

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

编译完成后：

spark-$VERSION-bin-$NAME.tgz

spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz

Spark Standalone模式的架构和Hadoop HDFS/YARN很类似的

1 master + n worker

spark-env.sh

SPARK_MASTER_HOST=hadoop001

SPARK_WORKER_CORES=2

SPARK_WORKER_MEMORY=2g

SPARK_WORKER_INSTANCES=1

hadoop1 : master

hadoop2 : worker

hadoop3 : worker

hadoop4 : worker

...

hadoop10 : worker

slaves:

hadoop2

hadoop3

hadoop4

....

hadoop10

==> start-all.sh 会在 hadoop1机器上启动master进程，在slaves文件配置的所有hostname的机器上启动worker进程

Spark WordCount统计

val file = spark.sparkContext.textFile("file:///home/hadoop/data/wc.txt")

val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)

wordCounts.collect

【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界的更多相关文章

【慕课网实战】八、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的ur ...
以慕课网日志分析为例-进入大数据Spark SQL的世界
下载地址.请联系群主第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目 ...
以某课网日志分析为例进入大数据 Spark SQL 的世界
第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop. ...
【慕课网实战】九、以慕课网日志分析为例进入大数据 Spark SQL 的世界
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFi ...
【慕课网实战】七、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到 ...
【慕课网实战】六、以慕课网日志分析为例进入大数据 Spark SQL 的世界
DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的. A Dataset is a distributed collection of data:分布式的 ...
【慕课网实战】五、以慕课网日志分析为例进入大数据 Spark SQL 的世界
提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \ ...
【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界
文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin... ...
【慕课网实战】二、以慕课网日志分析为例进入大数据 Spark SQL 的世界
MapReduce的局限性: 1)代码繁琐: 2)只能够支持map和reduce方法: 3)执行效率低下: 4)不适合迭代多次.交互式.流式的处理: 框架多样化: 1)批处理(离线):MapRed ...

随机推荐

python学习Day8 三种字符类型、文件操作
复习类型转换 1.数字类型:int() | bool() | float() 2.str与int:int('10') | int('-10') | int('0') | float('-.5') | ...
CSS 背景图像重复图像
重复图像 background-repeat 属性可以重复图像,这对于小图片来说是福音. background-repeat 属性有6个值: repeat 背景图像在垂直方向和水平方向都重复 repe ...
HATEOAS 约束
HATEOAS 约束 HATEOAS(Hypermedia as the engine of application state)是 REST 架构风格中最复杂的约束,也是构建成熟 REST 服务的核 ...
boss推荐文章
20170216 --- 谁是你的下一个客户?国内 B2B Predictive Marketing 公司浅探(中)https://zhuanlan.zhihu.com/p/25257243?refe ...
windows下git 同步数据到github的常见问题
常用排错方法: 1,查看连接是否正常. 2,push数据有时会报错,这是由于远程repository和我本地的repository冲突造成. 解决方法: 1.使用强制push的方法: git push ...
WPF常用布局介绍
概述:本文简要介绍了WPF中布局常用控件及布局相关的属性 1 Canvas Canvas是一个类似于坐标系的面板,所有的元素通过设置坐标来决定其在坐标系中的位置..具体表现为使用Left.Top.Ri ...
pandas，读取或存储DataFrames的数据到mysql中
dataFrames格式的数据是表格形式的,mysql数据库中的数据也是表格形式的,二者可以很方便的读取存储安装依赖的包 pip install pandas pip install sqlal ...
IDEA查看项目对应的git地址
参考 https://blog.csdn.net/yyyadan/article/details/85091972 项目文件夹/.git/config
android一个app打开另一个app的指定页面
一个app打开另一个app的指定页面方法有以下几种 1.通过包名.类名 2.通过intent的 action 3.通过Url 方案1. ComponentName componentName = n ...
mysql启动服务
mysql.server start 启动mysql服务mysql.server stop 停止mysql服务 mysql密码:123456Az_

【慕课网实战】三、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

【慕课网实战】三、以慕课网日志分析为例 进入大数据 Spark SQL 的世界的更多相关文章

随机推荐

热门专题

【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界

【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界的更多相关文章