【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版
第一章:课程介绍
铭文一级:
VMware Fusion
Mac上搭建:为了给大家演示如何使用我们的OOTB环境
Hadoop环境:虚拟机,我是远程登录
Mac
那么就不需要使用我们的OOTB环境
VMware Fusion+OOTB
Window:VMware
hadoop/hadoop
root用户的密码是什么?
修改配置文件,是需要root权限的,怎么办?
sudo command
只有一个地方需要修改:ip地址
/etc/hosts
192.168.199.128 hadoop000
192.168.199.128 localhost
铭文二级:
项目需求=>
1.今天到现在为止的流量访问量
2.今天到现在为止从搜索引擎引流过来的流量访问量
处理流程:产生->采集->清洗->分析->入库->可视化
学习前提基础:1.linux基础 2.java/python/scala其中一种语言 3.hadoop/spark基础
学习建议=>
1.笔记(如写博客)
2.官网(*为apache顶级项目):
A.官网:*.apache.org
B.源码:github.com/apache/*
3.动手
环境介绍=>
CenOs6.4、CDH5.7、IDEA、Jdk1.8、Scala2.11.8、Spark2.2.0、flume1.6.0、kafka0.9.0.0、ZooKeeper-3.4.5、Hbase1.2.0
CDH5的环境网址:http://archive.cloudera.com/cdh5/cdh/5/ (或搜:cdh5 第一个网址)
OOTB环境使用=>
用VMware打开hadoop000.vmx文件(若为VMware Fusion环境:选择“已拷贝”、“是”)
用户:hadoop 密码:hadoop
1.ifconfig查询ip地址 2.sudo vi /etc/hosts修改成查到的ip地址
(远端登录指令:ssh hadoop@192.168.0.1)//ip地址改成自己的
虚拟机核心文件夹:(/home/hadoop/) app、data、lib、software、source
若要进行Spark版本的升级(前提需要装好maven)=>
官网介绍:http://spark.apache.org/docs/latest/building-spark.html(官网主页:Documentation->Latest Release->More->Building Spark)
中文介绍:https://www.imooc.com/article/18419
1.jdk升级到1.8 2.scala版本若为2.10,勿忘执行:./dev/change-scala-version.sh 2.10
环境变量=>
配置在~/.bash_profile里面
export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9
export PATH=$MAVEN_HOME/bin:$PATH
铭文三级:
问题:虚拟机每次重启,ip地址会自动变化,如何固定?
方案1:setup--网络设置--不要选dhcp--手动设置ip,掩码---退出---service network restart--ifconfig查看
或者应用程序--网络--eth0--编辑--使用固定ip--手动输入设置--确定--激活--service network restart--ifconfg查看 方案2:http://blog.csdn.net/wang_zhenwei/article/details/48706651
排位赛总结:
linux vi 删除1行:dd
ssh hadoop@ip //注意是hadoop机器,不是用户名
铭文四级:
Spark源码编译
第一种方式:打包成tgz包(custom-spark改成2.6.0-cdh5.7.0)
./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
老师参考:
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
第二种方式:mvn编译(如今官网-Phadoop是使用2.6.X,所以参数也可以不传递)
./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-Phive -Phive-thriftserver-DskipTests clean package mvn知识补充:-P传递pom.xml里的profile参数 -D传递dependency参数
【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版的更多相关文章
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理 需求:统计主站每个(指定)课程访问的客户端.地域信息分布 地域:ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础课程 ==&g ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息- ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...
随机推荐
- Java_13.1.1 字符串的应用
1获取一个字符串中,另一个字符串出现的次数 思想: 1. indexOf到字符串中到第一次出现的索引 2. 找到的索引+被找字符串长度,截取字符串 3. 计数器++ p ...
- go语言中的并发
package main; import ( "fmt" "runtime" "sync" ) //goruntine奉行通过通信来共享内存 ...
- 关于js动画简单理解;
1.CSS样式提供了运动 过度的属性:transition 过度的属性值:attr ,time , liner , delay: 值分别是:属性(css),花费的时间,变化的速度(默认匀速), ...
- vue 动态修改el-upload 的action
action是一个必填参数,且其类型为string,我们把action写成:action,然后后面跟着一个方法名,调用方法,返回你想要的地址,代码示例: //html 代码 <el-upload ...
- Android Studio 解析json文件出现中文乱码解决方法
作为一个Android开发初学者,好不容易找到解决方法,跟大家分享一下, 其实很简单,只要保持服务器上的文件(date2.json)与软件的编码方式一样就行. 我用的Android Studio是ut ...
- Android开发之动态设置字体的样式和粗细
字体设置通常有两种形式: 1:在xml中直接设置 android:textStyle="bold" android:typeface="sans" 2:用jav ...
- Java 7.21 游戏:豆机(C++&Java)
PS: 难点在于,随机之后的分隔,理解就很容易了 注意:槽的奇偶情况 C++: #include<iostream> #include<ctime> #include<s ...
- BZOJ 1977[BeiJing2010组队]次小生成树 Tree - 生成树
描述: 就是求一个次小生成树的边权和 传送门 题解 我们先构造一个最小生成树, 把树上的边记录下来. 然后再枚举每条非树边(u, v, val),在树上找出u 到v 路径上的最小边$g_0$ 和 严格 ...
- jsonp,ajax,json问题
JSONP技术 JSONP是解决跨域问题的一种常见方式 跨域问题,因为浏览器有同源策略,所以当不同域间进行数据交互的时候就会出现跨域问题 同源策略:只有在同协议.同域名.同端口的情况下才能进去数据交互 ...
- 显示实现接口的好处c#比java好的地方
所谓Go语言式的接口,就是不用显示声明类型T实现了接口I,只要类型T的公开方法完全满足接口I的要求,就可以把类型T的对象用在需要接口I的地方.这种做法的学名叫做Structural Typing,有人 ...