【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版

第一章：课程介绍

铭文一级：

VMware Fusion
Mac上搭建：为了给大家演示如何使用我们的OOTB环境
Hadoop环境：虚拟机，我是远程登录
Mac
那么就不需要使用我们的OOTB环境
VMware Fusion+OOTB

Window：VMware

hadoop/hadoop
root用户的密码是什么？
修改配置文件，是需要root权限的，怎么办？
sudo command

只有一个地方需要修改：ip地址
/etc/hosts
192.168.199.128 hadoop000
192.168.199.128 localhost

铭文二级：

项目需求=>

1.今天到现在为止的流量访问量

2.今天到现在为止从搜索引擎引流过来的流量访问量

处理流程：产生->采集->清洗->分析->入库->可视化

学习前提基础：1.linux基础 2.java/python/scala其中一种语言 3.hadoop/spark基础

学习建议=>

1.笔记（如写博客）

2.官网（*为apache顶级项目）:

A.官网：*.apache.org

B.源码：github.com/apache/*

3.动手

环境介绍=>

CenOs6.4、CDH5.7、IDEA、Jdk1.8、Scala2.11.8、Spark2.2.0、flume1.6.0、kafka0.9.0.0、ZooKeeper-3.4.5、Hbase1.2.0

CDH5的环境网址：http://archive.cloudera.com/cdh5/cdh/5/ （或搜：cdh5 第一个网址）

OOTB环境使用=>

用VMware打开hadoop000.vmx文件（若为VMware Fusion环境：选择“已拷贝”、“是”）

用户：hadoop 密码：hadoop

1.ifconfig查询ip地址 2.sudo vi /etc/hosts修改成查到的ip地址

（远端登录指令：ssh hadoop@192.168.0.1）//ip地址改成自己的

虚拟机核心文件夹：（/home/hadoop/） app、data、lib、software、source

若要进行Spark版本的升级（前提需要装好maven）=>

官网介绍：http://spark.apache.org/docs/latest/building-spark.html(官网主页：Documentation->Latest Release->More->Building Spark)

中文介绍：https://www.imooc.com/article/18419

1.jdk升级到1.8 2.scala版本若为2.10，勿忘执行：./dev/change-scala-version.sh 2.10

环境变量=>

配置在~/.bash_profile里面

export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9

export PATH=$MAVEN_HOME/bin:$PATH

铭文三级：

问题：虚拟机每次重启，ip地址会自动变化，如何固定？

方案1：setup--网络设置--不要选dhcp--手动设置ip,掩码---退出---service network restart--ifconfig查看

或者应用程序--网络--eth0--编辑--使用固定ip--手动输入设置--确定--激活--service network restart--ifconfg查看

方案2：http://blog.csdn.net/wang_zhenwei/article/details/48706651

排位赛总结：

linux vi 删除1行：dd

ssh hadoop@ip　　//注意是hadoop机器，不是用户名

铭文四级：

Spark源码编译

第一种方式：打包成tgz包（custom-spark改成2.6.0-cdh5.7.0）

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

老师参考：
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

第二种方式：mvn编译（如今官网-Phadoop是使用2.6.X，所以参数也可以不传递）

./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

mvn知识补充：-P传递pom.xml里的profile参数 -D传递dependency参数

【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

java_13.1 javaAPI
1 API概念 API:是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节.2 String类的概念和不变性 Stri ...
用户Cookie和会话Session、SessionId的关系
一.客户端用cookie保存了sessionID 客户端用cookie保存了sessionID,当我们请求服务器的时候,会把这个sessionID一起发给服务器,服务器会到内存中搜索对应的sessio ...
vue-router2
六,导航钩子导航钩子函数主要是在导航跳转的时候做一些操作,比如跳转页面之前,进行判断进而选择跳转到哪里钩子函数根据生效范围根据其生效范围可以分为全局钩子函数,路由独享钩子函数和组件钩子函数. ...
errror:[test_rig3.launch] is neither a launch file in package [svo_ros] nor is [svo_ros] a launch file name The traceback for the exception was written to the log file
1. 打开一个终端,运行roscore 2. 打开另一个终端,运行 roslaunch svo_ros test_rig3.launch 出现errror: 忘记关键步骤了 $ cd <path ...
Redhat ssh服务登录慢
redhat在安装以后每次通过ssh服务登录,要等待几秒才能进入. 只要在sshd_config修改一下以下值就好 vim /etc/ssh/sshd_config UseDNS no service ...
linux 输出重定向
输出重定向标准输入文件描述符:0 设备:键盘设备文件名:/dev/stdin 标准输出文件描述符:1 设备:显示器设备文件名:/dev/sdtout 标准输出重定向命令 >> ...
iOS.Thread.OSAtomic
1. 原子操作 (Atomic Operations) 编写多线程代码最重要的一点是:对共享数据的访问要加锁. Shared data is any data which more than one ...
Luogu 1764 翻转游戏 - 枚举 + 搜索
题目描述 kkke在一个n*n的棋盘上进行一个翻转游戏.棋盘的每个格子上都放有一个棋子,每个棋子有2个面,一面是黑色的,另一面是白色的.初始的时候,棋盘上的棋子有的黑色向上,有的白色向上.现在kkke ...
UVA-1364.Knights of the Round Table 无向图BCC
题目链接:https://vjudge.net/problem/UVA-1364 题意:有n个人参加会议,互相憎恨的人不能坐在相邻的位置,并且每个会议参加的人数必须是奇数,求有多少个人不能参加任何一个 ...
robot framework测试驱动无法定位页面元素
robot framework错误提示: [ WARN ] Keyword 'Capture Page Screenshot' could not be run on failure: NoSuchW ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版的更多相关文章

随机推荐

热门专题